數(shù)據(jù)網(wǎng)絡無論大小,或是城域網(wǎng)、園區(qū)網(wǎng),或是一棟大樓
內(nèi)的局域網(wǎng),通常不可避免的要考慮在網(wǎng)絡中采用什么樣的主干設
備。就這點而言,我們認為從網(wǎng)絡主干設備的系統(tǒng)結構入手,將使
你的選型思路變得清晰和準確(本文不對設備中使用何種協(xié)議展開
討論)。這些觀點是結合許多網(wǎng)絡項目的實踐,并吸收國外第三方
的一些評述而成的。我們的指導思想是,盡可能從客觀、中立的角
度品評一些技術問題,以供廣大的網(wǎng)絡技術工作者在實踐中參考,
并希望能有所陴益。
網(wǎng)絡主干設備的系統(tǒng)結構
網(wǎng)絡主干設備的系統(tǒng)結構直接決定了設備的性能和功能水
平。這猶如先天很好的一個嬰兒和一個先天不足的嬰兒,即便后天成長條件完全相同,他們的能力依然有相
當大的差別。因此,深入了解設備的系統(tǒng)結構設計,客觀認知設備的性能和功能,這對正確選擇設備極有幫
助,下面將從七個方面進行討論。
1.交換結構 (Switching Fabric)
隨著網(wǎng)絡交換技術不斷的發(fā)展,交換結構在網(wǎng)絡設備的體系結構中占據(jù)著極為重要的地位。為了便于
理解,這里僅簡述三種典型的交換結構的特點:
◆共享總線
由于近年來網(wǎng)絡設備的總線技術發(fā)展緩慢,所以導致了共享總線帶寬低,訪問效率不高;而且,它不
能用來同時進行多點訪問。另外,受CPU頻率和總線位數(shù)的限制,其性能擴展困難。它適用于大部分流量在模
塊本地進行交換的網(wǎng)絡模式。
◆共享內(nèi)存
其訪問效率高,適合同時進行多點訪問。共享內(nèi)存通常為DRAM和SRAM兩種,DRAM速度慢,造價低,SR
AM速度快,造價高。共享內(nèi)存方式對內(nèi)存芯片的性能要求很高,至少為整機所有端口帶寬之和的兩倍(比如
設備支持32個千兆以太網(wǎng)端口,則要求共享內(nèi)存的性能要達到64Gbps)。由此可見,既便不考慮價格因素,
內(nèi)存芯片技術本身在某種程度上也限制了共享內(nèi)存方式所能達到的性能水平。
◆交換矩陣(Cross bar)
由于ASIC技術發(fā)展迅速,目前ASIC芯片間的轉發(fā)性能通常可達到1Gbps,甚至更高的性能,于是給交
換矩陣提供了極好的物質(zhì)基礎。所有接口模塊(包括控制模塊)都連接到一個矩陣式背板上,通過ASIC芯片
到ASIC芯片的直接轉發(fā),可同時進行多個模塊之間的通信;每個模塊的緩存只處理本模塊上的輸入/輸出隊
列,因此對內(nèi)存芯片性能的要求大大低于共享內(nèi)存方式。總之,交換矩陣的特點是訪問效率高,適合同時進
行多點訪問,容易提供非常高的帶寬,并且性能擴展方便,不易受CPU、總線以及內(nèi)存技術的限制。目前大部
分的專業(yè)網(wǎng)絡廠商在其第三層核心交換設備中都越來越多地采用了這種技術。
2.阻塞與非阻塞配置
阻塞與非阻塞配置是兩種截然不同的設計思想,它們各有優(yōu)劣。在選型時,一定要根據(jù)實際需求來選
擇相應的網(wǎng)絡設備。
◆阻塞配置
該種設計是指:機箱中所有交換端口的總帶寬,超過前述交換結構的轉發(fā)能力。因此,阻塞配置設計
容易導致數(shù)據(jù)流從接口模塊進入交換結構時,發(fā)生阻塞;一旦發(fā)生阻塞,便會降低系統(tǒng)的交換性能。例如,
一個交換接口模塊上有8個千兆交換端口,其累加和為8Gbps,而該模塊在交換矩陣的帶寬只有2Gbps。當該模
塊滿負荷工作時,勢必發(fā)生阻塞。采用阻塞設計容易在千兆/百兆接口模塊上提高端口密度,十分適合連接服
務器集群(因為服務器本身受到操作系統(tǒng)、輸入/輸出總線、磁盤吞吐能力,以及應用軟件等諸多因素的影
響,通過其網(wǎng)卡進行交換的數(shù)據(jù)不可能達到網(wǎng)卡吞吐的標稱值)。
◆非阻塞配置
該設計的目標為:機箱中全部交換端口的總帶寬,低于或等于交換結構的轉發(fā)能力,這就使得在任何
情況下,數(shù)據(jù)流進入交換結構時不會發(fā)生阻塞。因此,非阻塞設計的網(wǎng)絡設備適用于主干連接。在主干設備
選型時,只需注意接口模塊的端口密度和交換結構的轉發(fā)能力相匹配即可(建議:當要構造高性能的網(wǎng)絡主
干時,必須選用非阻塞配置的主干設備)。
3.采用何種方式實現(xiàn)第3層和第4層的處理
眾所周知,每一次網(wǎng)絡通信都是在通信的機器之間產(chǎn)生一串數(shù)據(jù)包。這些數(shù)據(jù)包構成的數(shù)據(jù)流可分別
在第3、4層進行識別。
在第3層(Network Layer,即網(wǎng)絡層,以下簡稱L3),數(shù)據(jù)流是通過源站點和目的站點的網(wǎng)絡地址被
識別。因此,控制數(shù)據(jù)流的能力僅限于通信的源站點和目的站點的地址對,實現(xiàn)這種功能的設備稱之為路由
器。一個不爭的事實:無論過去、現(xiàn)在、還是將來,路由器在網(wǎng)絡中都占據(jù)著核心的地位。傳統(tǒng)路由器是采
用軟件實現(xiàn)路由功能,其速度慢,且價格昂貴,往往成為網(wǎng)絡的瓶頸。隨著網(wǎng)絡技術的發(fā)展,路由器技術發(fā)
生了革命,路由功能由專用的ASIC集成電路來完成。現(xiàn)在這種設備被稱之為第三層交換機或叫做交換式路由
器。
在第4層(Transport Layer即傳輸層,以下簡稱L4),通過數(shù)據(jù)包的第4層信息,設備能夠懂得所傳
輸?shù)臄?shù)據(jù)包是何種應用。因此,第4層交換提供應用級的控制,即支持安全過濾和提供對應用流施加特定的Qo
S策略。誠然,傳統(tǒng)路由器具有閱讀第4層報頭信息的能力(通過軟件實現(xiàn)),與第三層交換機(或交換式路
由器)采用專用的ASIC集成電路相比,設備的性能幾乎相差了兩個數(shù)量級,因此,傳統(tǒng)路由器無法實現(xiàn)第4層
交換。
值得指出的是:網(wǎng)絡主干設備的系統(tǒng)結構在設計上分成兩大類:集中式和分布式。即便兩者都采用了新的
技術,但就其性能而言,仍存在著較大的差異。
◆集中式
所謂集中式,顧名思義,L3/L4數(shù)據(jù)流的轉發(fā)由一個中央模塊控制處理。因此,L3/L4層轉發(fā)能力通常
為3M-4Mpps,最多達到15Mpps。
◆分布式
將L3/L4層數(shù)據(jù)流的轉發(fā)策略設置到接口模塊上,并且通過專用的ASIC芯片轉發(fā)L3/L4層數(shù)據(jù)流,從而
實現(xiàn)相關控制和服務功能。L3/L4層轉發(fā)能力可達 30Mpps 至 40Mpps。
4.系統(tǒng)容量
由于網(wǎng)絡規(guī)模越來越大,網(wǎng)絡主干設備的系統(tǒng)容量也成為選型中的重要考核指標。建議重點考核以下
兩個方面:
◆物理容量
各類網(wǎng)絡協(xié)議的端口密度,如千兆以太網(wǎng)、快速以太網(wǎng),尤其是非阻塞配置下的端口密度。
◆邏輯容量
路由表、MAC地址表、應用數(shù)據(jù)流表、訪問控制列表(ACL)大小,反映出設備支持網(wǎng)絡規(guī)模大小的能
力(先進的主干設備必須支持足夠大的邏輯容量,以及非阻塞配置設計下的高端口密度。)
5.關鍵部件冗余設計
通過這些年的實踐,人們已經(jīng)認同處于關鍵部位的網(wǎng)絡設備不應存在單點故障。為此,網(wǎng)絡主干設備
應能實現(xiàn)如下三方面的冗余。
◆電源和機箱風扇冗余
◆控制模塊冗余
控制模塊冗余功能應提供對主控制模塊的“自動切換”支持。如:備份控制模塊連續(xù)5次沒有聽到來
自主控制模塊的匯報,備份模塊將進行初始化并執(zhí)行硬件恢復。另外,各種模塊均可熱插拔。
◆交換結構冗余
如果網(wǎng)絡主干設備忽略交換結構的冗余設計,就無法達到設備冗余的完整性。因此,要充分考慮網(wǎng)絡
主干設備的可靠性,應該要求該設備支持交換結構冗余。此外,交換結構冗余功能也應具有對主交換結構
“自動切換”的特性。
6.緩沖技術
緩沖技術在網(wǎng)絡交換機的系統(tǒng)結構中使用的越來越多,也越來越復雜。任何技術的使用都有著兩面
性,如過大的緩沖空間會影響正常通信狀態(tài)下,數(shù)據(jù)包的轉發(fā)速度(因為過大的緩沖空間需要相對多一點的
尋址時間),并增加設備的成本。而過小的緩沖空間在發(fā)生擁塞時又容易丟包出錯。所以,適當?shù)木彌_空間
加上先進的緩沖調(diào)度算法是解決緩沖問題的合理方式。對于網(wǎng)絡主干設備,需要注意幾點:
◆每端口是否享有獨立的緩沖空間,而且該緩沖空間的工作狀態(tài)不會影響其它端口緩沖的狀態(tài)。
◆模塊或端口是否設計有獨立的輸入緩沖、獨立的輸出緩沖,或是輸入/輸出緩沖。
◆是否具有一系列的緩沖管理調(diào)度算法,如RED、WRED、RR/FQ、WERR/WEFQ。