?

面向新型智能計算中心的全調度以太網技術

2023-09-21 08:47段曉東DUANXiaodong程偉強CHENGWeiqiang王瑞雪WANGRuixue王雯萱WANGWenxuan
中興通訊技術 2023年4期
關鍵詞:算力報文數據包

段曉東/DUAN Xiaodong,程偉強/CHENG Weiqiang,王瑞雪/WANG Ruixue,王雯萱/WANG Wenxuan

(中國移動通信有限公司研究院,中國 北京 100053 )

1 AI業務與智能計算中心產業的發展

1.1 AI業務發展趨勢

人工智能(AI)業務發展經歷了漫長的歷程。20世紀50年代,人們開始嘗試模擬人腦的神經網絡來解決計算機視覺和語音識別的問題。但由于當時無法解決神經網絡計算復雜度高和可解釋性差的問題, AI 技術進入了“寒冬”。2012—2017年,Hinton等提出卷積神經網絡,大大推動計算機視覺和深度學習的發展。同時,基于深度學習的AlphaGo戰勝圍棋世界冠軍,進一步點燃人們在深度學習領域探索的熱情與信心。2017—2022 年,基于大型神經網絡的Transformer架構出現,該模型可以更好地捕捉序列之間的依賴關系,開啟了基于深度學習的AI 新時代。2022 年11 月,OpenAI公司開發的大規模智能語言模型ChatGPT 橫空出世。ChatGPT 結合了GPT-3.5 和GPT-4 系列的大型語言模型,展現出驚人的語言能力[1]。該模型深入各個領域,在引爆全球科技領域的同時,推動AI產業全面進入大模型時代。因此,ChatGPT的出現具有跨時代的意義。

近年來,隨著算力經濟的高速發展[2],AI業務在自動駕駛、語音識別和自然語言處理等領域取得了許多重大成就,并涌現出人工智能即服務(AIaaS)和模型即服務(MaaS)兩種新型服務模式。當前,教育、醫療、智慧城市和智能制造等行業迫切需要AI 賦能,例如:華為云、百度云、阿里云和騰訊云等提供AIaaS的企業均為用戶提供高品質的人工智能服務。MaaS 擁有經過大量數據集訓練和優化的模型,可為用戶提供圖像識別、自然語言處理、預測分析和欺詐檢測等服務。

為推動AI業務的發展,中國陸續給予政策方面的扶持和激勵,特別是東數西算工程的全面啟動,給AI大模型在智能計算(后文簡稱為“智算”)中心的快速發展注入強大的助推劑[3]。AI 大模型的參數量呈指數級增長,有力地驅動了“大模型”向“超大模型”演進。與此同時,智算規模和智算需求也呈指數級增長。預計截至2030 年,智算占比將達到70%,AI技術將廣泛落地,中國將迎來智算中心建設的熱潮。

1.2 智算中心產業發展趨勢

為加速智能經濟發展和產業數字化轉型,智算中心作為一種新的關鍵性信息基礎設施進入公眾視野。智算中心既不同于超算中心,也不同于互聯網企業和運營商的云計算中心。智算中心既要借鑒超算中心分布式集群計算架構,以支持超大規模、復雜度高及多樣性的數據處理,又要參照云計算服務模式,采用統一的架構和統一的應用程序編程接口(API),以屏蔽底層技術細節,降低使用門檻,向不同行業提供普適且靈活多樣的智算服務。

隨著業內領軍企業競相推出千億、萬億級參數量的大模型,以圖形處理器(GPU)、神經網絡處理器(NPU)為代表的AI 算力設施迅猛發展,使得智算中心底層GPU 算力部署規模達到萬卡級別?;跀祿⑿?、模型并行的分布式訓練成為處理超大模型和超大數據集的關鍵手段。智算中心集群算力與GPU 算力、節點數量、線性加速比、有效運行時間等呈正相關,需要計算、存儲和網絡資源的協同設計,具體表現在以下幾個方面:在計算方面,單機算力無法支撐海量訓練數據,需要將計算任務切分到單機級別,以并行計算的集群架構方式提供算力服務;在存儲方面,為突破計算節點中大量密集數據存取帶來的算力瓶頸,搭建機械硬盤(HDD)、固態硬盤(SSD)、存儲類內存(SCM)等異構存儲集群,以降低數據訪問時延;在網絡方面,構建連接中央處理器(CPU)、GPU、存儲等異構算力資源的總線級、高性能無阻塞交換網絡,以提升網絡通信性能和穩定性;在機房建設方面,提前規劃“風火水電”等基建設施,引入液冷系統,實現低電源使用效率(PUE)數據中心的高能效利用。由此可見,傳統智算中心正在向新型智算中心演進。

面向智能計算業務的發展,新型智算中心圍繞“算、存、網、管、效”五大核心技術全面升級,以提升GPU 集群算力,打造多元融合存儲,構建高速無損網絡,管控異構算力池化,以高效節能控制為目標,構建標準統一、技術領先、兼容開放的智算底座。

2 智算中心網絡演進趨勢與挑戰

2.1 智算中心網絡關鍵特征

隨著GPU 高速發展和算力需求的激增,算力中心正向集約化方向發展,數據中心從“云化時代”轉向“算力時代”。在傳統云數據中心中,傳統的計算處理任務或離線大數據計算任務以服務器或虛擬機(VM)為池化對象,網絡負責提供服務器或VM之間的連接,并聚焦業務部署效率及網絡自動化能力;而智算中心是服務于人工智能的數據計算中心,以GPU 等AI 訓練芯片為主,并以提升單位時間、單位能耗下的運算能力和質量為核心訴求,為AI 計算提供更大的計算規模和更快的計算速度。傳統數據中心通過CPU來執行計算任務,且網絡帶寬需求為10~100 Gbit/s,并通過使用傳輸控制協議(TCP)來完成內存數據的讀??;而智算中心網絡主要用于承載AI 訓練業務,其GPU 算力與CPU 相比擁有更高的計算性能,且網絡帶寬需求為100~400 Gbit/s(甚至達到800 Gbit/s),并可以通過遠程直接內存訪問(RDMA)來減少傳輸時延。由于RDMA 網絡對于丟包異常敏感,0.01%的丟包率就會使RDMA 吞吐率變為0,因此大模型訓練的智算中心網絡需要縮短迭代過程中通信傳輸數據的時間,降低通信開銷,從而減少GPU 的計算等待,提升計算效率。綜上所述,零丟包、大帶寬、低時延、高可靠是智算中心網絡最為關鍵的特征。

2.2 智算中心網絡面臨的挑戰

與傳統數據中心不同,智算中心主要用于承載AI 模型訓練業務,其通信流量主要具備周期性、流量大、同步突發等特點。在大模型訓練過程中,通信具有非常強的周期性,且每輪迭代的通信模式保持一致。在每一輪的迭代過程中,不同節點間的流量保持同步,同時流量以on-off的模式突發式傳輸。以上通信流量的特點對智算中心網絡提出了3 個需求:

1)高接入帶寬是基礎。大模型訓練對帶寬比較敏感。網絡對通信影響最大的是序列化時延,網絡通信質量主要取決于有效帶寬。但由于網絡交換的時間占比不高,靜態時延對模型訓練效率影響不大。

2)網絡級負載均衡是關鍵。保證通信的有效帶寬是模型訓練的關鍵因素之一。負載均衡技術是保證有效帶寬的關鍵。集合操作通信的完成時間由最慢節點的完成時間決定。在無阻塞網絡中,若鏈路負載不均衡,則會導致沖突流有效帶寬下降,沖突流的序列化時間增加。

3)高健壯網絡是保障。網絡持續高可用、故障業務無中斷是分布式系統運行的基礎。在高健壯網絡中,鏈路故障時網絡會達到亞毫秒級的自動收斂,降低了網絡故障對網絡擁塞的影響。

如今,基于融合以太網承載遠程直接內存訪問(RoCE)協議的智算中心網絡,通常采用五元組哈希實現鏈路負載分擔技術,以及基于優先級的流量控制(PFC)、顯式擁塞通告(ECN)協議實現網絡無損,該方案對智算中心網絡提出4個挑戰:

挑戰1:傳統基于逐流的等價多路徑路由(ECMP)負載均衡技術在流量數小的情況下會失效,導致流量在交換網絡發生極化,鏈路負載不均。當智算中心網絡中存在大象流時,很容易發生多個流被散列到相同的路徑上的情況,從而導致鏈路過載,造成某個物理鏈路負載過大,甚至會出現擁塞而導致報文丟棄。

挑戰2:隨著網絡規模的不斷提升,報文交換方式由單網絡節點內實現到單網絡節點間多跳實現轉變,各節點間也從松耦合關系變化為聯合轉發。業界通過Clos架構搭建大規模分布式轉發結構來滿足日益增長的轉發規模需求。在該架構下,各節點分布式運行和自我決策轉發路徑導致無法完全感知全局信息和實現最優的整網性能。

挑戰3:當前流量進入網絡時,在不考慮出端口轉發能力的情況下,流量會以“推”的方式進入網絡。分布式訓練的多對一通信模型產生大量In-cast 流量,造成設備內部隊列緩存的瞬時突發而導致擁塞甚至丟包,造成應用時延的增加和吞吐的下降。PFC 和ECN 都是擁塞產生后的事后干預的被動擁塞控制機制,它們無法從根本上避免擁塞。

挑戰4:AI 訓練網絡是一個封閉的專用網絡,針對訓練效率,通過Underlay直接承載AI訓練任務,不再劃分Overlay 平面,使傳統SDN 能力失效。同時,傳統的智能流分析技術已無法滿足高性能無損網絡隱患識別、故障預測和閉環等運維可視化需求。

2.3 智算中心網絡的演進趨勢

綜合當前所面臨的挑戰,未來智算中心網絡將向3個方向進行演進:一是從“流”分發到“包”分發演進,即通過提供逐報文容器動態負載均衡機制,消除哈希極化問題,實現單流多路徑負載分擔,提升有效帶寬,降低長尾時延;二是從“局部”決策到“全局”調度演進,即實現全局視野的轉發調度機制,并實現集中式管理運維、分布式控制轉發,提高網絡可用性;三是從“推”流到“拉”流演進,即從被動擁塞控制向依賴“授權請求”和“響應機制”的主動流控轉變,最大限度地避免網絡擁塞產生,同時需要引入全局集中式管理系統,提升網絡自動化及可視化能力。

基于以上面向未來智算中心的三大演進方向,我們創新性地提出一種全調度以太網(GSE)技術方案,打造無阻塞、高帶寬、低時延、自動化的新型智算中心網絡,助力AIGC等高性能業務快速發展[4]。

3 新型GSE架構體系

3.1 GSE架構介紹

為打造無阻塞、高帶寬、低時延的高性能網絡,GSE架構應運而生,如圖1所示。該架構主要包括計算層、網絡層和控制層3 個層級,包含計算節點、網絡邊緣處理節點(GSP)、網絡核心交換節點(GSF)及全調度操作系統(GSOS)4類設備[4]。

▲圖1 全調度以太網(GSE)技術體系分層架構

1)控制層:包含全局集中式GSOS,以及GSP和GSF設備端分布式節點操作系統(NOS)。其中,集中式GSOS用于提供網絡全局信息,實現基于全局信息編址、日常運維管理等功能;設備端NOS 可實現動態負載均衡、動態全局調度隊列(DGSQ)調度等分布式網絡管控功能。

2)網絡層:GSE 網絡主要實現GSP 和GSF 協同,構建出具備全局流量調度、鏈路負載均衡、流量精細反壓等技術融合的交換網絡。其中,Fabric 部分可支持二層GSF 擴展,以滿足更大規模組網需求。

3)計算層:即GSE 網絡服務層,包含高性能計算卡(GPU 或CPU)及網卡,初期將計算節點作為全調度以太網邊界,僅通過優化交換網絡能力提升計算集群訓練性能。未來計算將與網絡深度融合,以進一步提升高性能計算能力。

GSE 3 層架構涉及計算節點、GSP、GSF 及GSOS 4 類設備,各設備分工如下:

1)計算節點:即服務器側的計算卡、網卡,提供高性能計算能力。

2)GSP:即網絡邊緣處理節點,用以接入計算流量,并對流量做全局調度;流量上行時具備動態負載均衡能力,流量下行時具備流量排序能力。

3)GSF:即網絡核心交換節點,作為GSP 的上一層級設備,用于靈活擴展網絡規模,具備動態負載均衡能力,以及反壓信息發布能力。

4)GSOS:即全調度操作系統,提供整網管控的集中式網絡操作系統能力。

3.2 GSE技術三大核心理念

3.2.1 基于報文容器的轉發及負載分擔機制

智算中心網絡通常采用胖樹(Fat-Tree)架構,任意出入端口之間存在多條等價轉發路徑。與云數據中心業務流量不同,智算業務流量具有“數量少,單流大”的特點。傳統以太網逐流負載分擔方式導致鏈路利用率不均,從而引起網絡擁塞。單流多路徑是提升智算中心網絡有效帶寬、避免網絡擁塞的關鍵技術手段。業界傳統網絡中實現單流多路徑的技術方案包括切包交換、逐包交換和組包交換。

1)切包交換:核心思想是在網絡入口將數據包邏輯切分成若干個信元,將屬于同一個數據包的信元調度到不同路徑進行傳輸,在網絡出口側對信元進行排序及重組,如圖2所示。該方式可充分利用多路徑交換能力,最大程度實現鏈路負載均衡。但在高帶寬演進趨勢下,由于被切分后的信元長度短,信元頭部開銷帶來較多的帶寬損耗,且極高的均衡調度頻率對硬件有較高的要求。

▲圖2 切包交換示意圖

2)逐包交換:核心思想是不對數據包進行處理,直接通過輪詢或權重等機制將數據包發往不同路徑進行傳輸,在網絡出口側對報文進行排序,如圖3所示。該方式不存在額外的報文開銷,也無需高頻的均衡調度周期。但由于數據包長度分布連續,難以準確根據已發往每條路徑的數據包總數據量來實現均衡負載,鏈路負載均衡性差,易受微突發影響導致網絡擁塞甚至丟包。

▲圖3 逐包交換示意圖

3)組包交換:核心思想是將數據包組裝成定長且長度較長的數據幀,并為數據幀添加幀頭(用于組裝和還原)。當數據包不足以填充一個大幀時,就需要填充冗余數據成幀,并利用網絡各節點對大數據幀進行存儲轉發,如圖4所示。該方式下大幀均衡調度的周期短,可適應高帶寬的轉發需求。但幀頭及冗余數據填充及存儲轉發機制會帶來一定程度的帶寬和時延損耗。

▲圖4 組包交換示意圖

基于上述分析,面向后續智算中心高帶寬、低時延的網絡需求,并結合逐包交換方式下即來即轉的低時延特性、組包交換方式下的高帶寬特性,本文在GSE 技術架構中提出一種基于報文容器(PKTC)的轉發及負載分擔機制。該機制根據最終設備或設備出端口,將數據包邏輯分組,并組裝成長度較長的“定長”容器進行轉發。屬于同一個報文容器的數據包被標記為相同的容器標識,沿著相同路徑進行轉發,以保證同屬于一個報文容器的數據包保序傳輸,如圖5所示。

▲圖5 報文容器轉發示意圖

3.2.2 基于報文容器的DGSQ 全局調度技術

分布式高性能應用的特征是多對一通信的In-cast 流量模型。如果這種流量是短暫的,在出口處可以通過一定的Buffer進行吸收;如果時間持續過長且多個入口的流量相加遠大于出口的線速帶寬,為了避免丟包,出口設備需啟用反壓機制保護流量。而反壓一旦出現,網絡的轉發性能就會大幅度下降,從而損害分布式應用的性能。

DCQCN目前是RDMA網絡應用最廣泛的擁塞控制算法,也是典型的被動擁塞控制算法。發送端根據接收到的擁塞通知報文(CNP)動態調整發送速率。由于1個比特的ECN信號僅能定性表示網絡產生擁塞,但無法定量地表示擁塞程度,所以端側需要探測式調整發送速率。此外,收斂速度慢會導致網絡吞吐性能下降。解決網絡擁塞丟包最直接的手段是防止過多的數據注入到網絡中造成擁塞,保證網絡中任意設備端口緩存或鏈路容量不會過載。

如圖6所示,GSP1的A1口和GSP3的A3口同時向GSP2的A2口發送流量,且流量相加大于A2的出口帶寬。這造成A2 口出口隊列擁塞。這種情況僅通過負載均衡是無法規避的,需要全局控制保證送到A2 的流量不超過其出口帶寬。因此,引入基于全局的轉發技術和基于DGSQ 的調度技術,才可實現全局流量的調度控制。

在負載均衡調度時,報文容器被作為轉發單位。但由于報文是邏輯組裝,無需額外的硬件開銷來對數據包進行組裝和還原。在網絡中轉發時添加的報文容器標識,仍以數據包的形式傳輸,且無冗余數據填充的問題,帶寬損耗小。

▲圖6 網絡In-cast流量發生場景

基于DGSQ 的全局調度技術如圖7 所示,在GSP 上建立網絡中所有設備出口的虛擬隊列,用以實現本GSP節點到對應所有出端口的流量調度。本GSP節點的DGSQ調度帶寬依賴授權請求和響應機制,由最終的設備出口、途經的設備統一進行全網端到端授權。由于中間節點的流量壓力差異,GSP 去往最終目的端口不再通過等價多路徑路由(ECMP)(路徑授權權重選擇路徑,而是需要基于授予的權重在不同的路徑上進行流量調度。這種方式可保證全網中前往任何一個端口的流量既不會超過該端口的負載能力,也不會超出中間任一網絡節點的轉發能力,可降低網絡中In-cast 流量產生的概率,減少全網內部反壓機制的產生。

▲圖7 基于DGSQ調度流程

基于PKTC 的負載均衡技術和DGSQ 全局調度技術在平穩狀態下可很好地進行流量調控與分配。但在微突發、鏈路故障等異常場景下,短時間內網絡還是會產生擁塞,這時仍需要依賴反壓機制來抑制源端的流量發送。傳統PFC 或FC都是點到點的局部反壓技術,一旦觸發擴散到整個網絡中,會引起頭阻HoL、網絡風暴等問題。全調度以太網技術需要精細的反壓機制來守護網絡的防線,通過最小的反壓代價來實現網絡的穩定負載。

3.2.3 全調度以太網的GSOS

綜合考慮分布式NOS、集中式SDN 控制器的優勢,全調度以太網的GSOS 分為全調度控制器、設備側NOS 兩大部分,可全面提升GSE 網絡自動化及可視化能力。

GSP和GSF的盒式設備支持獨立部署NOS,有助于構建出分布式網絡操作系統。每臺GSP和GSF 具備獨立的控制面和管理面,可以運行屬于設備自身的網絡功能,提升系統可靠性,降低部署難度。分布式NOS 可以將單點設備故障限制在局部范圍,避免對整網造成影響。

集中式GSOS 提供更好的網絡全局信息,簡化基于全局端口信息的DGSQ系統的建立和維護。同時GSOS 也是整網運維監控的大腦,可協同設備實現對實時路徑、歷史的記錄及呈現,以支撐網絡運維。

3.3 GSE網絡工作機制

GSE 交換網絡采用定長的PKTC 進行報文轉發及動態負載均衡,通過構建基于PKTC 的DGSQ 全調度機制、精細的反壓機制和無感知自愈機制,實現微突發及故障場景下的精準控制,全面提升網絡有效帶寬和轉發延遲穩定性。相關的具體端到端轉發流程圖9所示。

▲圖8 全調度以太網操作系統架構

▲圖9 GSE網絡端到端流量轉發示意圖

1)源端GSP 設備從計算側收到報文后,通過轉發表找到最終出口,并基于最終出口按需將報文分配到對應的DGSQ中進行授權調度。

2)源端GSP 設備獲得授權后,遵循PKTC 的負載均衡要求,將報文發送到GSE網絡中。

3)當到達目的端GSP 設備后,報文先進行PKTC 級別的排序,再通過轉發表存儲到物理端口對應隊列,最終通過端口調度發送到計算節點。

作為一種標準開放的新型以太網技術,GSE可采用網卡側無感知的組網方案,即網絡側采用GSE技術方案,網卡側仍采用傳統RoCE 網卡。此外,也可以結合網卡能力演進,將GSE方案各組件的功能在網絡組件中重新分工,將部分或全部網絡功能下沉到網卡側來實現。也就是說,在未來的實際應用中,可以將GSP的功能全部下沉到網卡以提供端到端的方案,也可以將網絡的起終點分別落在網絡設備和網卡上,為后續網絡建設和設備選型提供靈活的可選方案。

4 結束語

新型智算中心網絡技術已逐漸成為全球創新焦點。智算中心網絡是一個多要素融合的復雜系統,是算網的深度融合,它依賴于AI 業務、網絡設備、交換芯片、網卡、儀表等上下游產業的協同創新。如何提升網絡規模和性能,構建超大規模、超高帶寬、超低時延的高性能智算中心網絡,是提升算力水平的關鍵。

GSE面向無損、高帶寬、超低時延等高性能網絡需求業務場景,兼容以太網生態鏈,通過采用全調度轉發機制、基于PKTC 的負載均衡技術、基于DGSQ 的全調度技術、精細的反壓機制、無感知自愈機制、集中管理及分布式控制等技術,實現低時延、無阻塞、高帶寬的新型智算中心網絡[4]。該技術架構旨在構建一個標準開放的高性能網絡技術體系,助力AIGC等高性能產業快速發展。由于該架構創新難度大、開發周期長,我們希望各個行業能夠攜手合作,持續推動相關技術標準發展。

猜你喜歡
算力報文數據包
蘇州:到2025 年算力產業創新集群規模達4 000 億元
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
基于J1939 協議多包報文的時序研究及應用
基于SiteAI算力終端的交通態勢感知系統
CTCS-2級報文數據管理需求分析和實現
淺析反駁類報文要點
SmartSniff
ATS與列車通信報文分析
視覺注意的數據包優先級排序策略研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合