?

確定性光傳輸支撐廣域長距算力互聯

2024-03-16 10:49王光全滿祥錕徐博華呂福華孟萬紅中國聯通研究院北京00048華為技術有限公司廣東深圳589
郵電設計技術 2024年2期
關鍵詞:廣域長距離算力

王光全,滿祥錕,徐博華,呂福華,孟萬紅(.中國聯通研究院,北京 00048;.華為技術有限公司,廣東 深圳 589)

0 引言

2022年1月,國務院印發《“十四五”數字經濟發展規劃》,提出加快建設信息網絡基礎設施,有序推進基礎設施智能升級,加快實施“東數西算”工程的要求。隨著國家東數西算戰略的推進,越來越多的算力協同場景以及跨地域大數據搬移場景開始涌現。數據和算力已經不再局限于單一的數據中心,更多的新型計算任務和大量數據需要在多個算力中心間流轉并進行算力協同,算力中心間的長距高性能傳輸能力已成為影響業務性能的關鍵因素。

算力互聯意味著將算力中心內部的DCN 網絡進行延伸,典型的DCN網絡覆蓋范圍在10 km以內,且高性能計算DCN 網絡當前主流的協議為遠程內存直接訪 問(Remote Direct Memory Access,RDMA),由 于RDMA 協議要求無損傳輸,當將DCN 網絡擴展到廣域百公里至千公里的范圍時,會導致超長的鏈路傳輸時延,進而導致網絡狀態反饋滯后。然而,現有的傳輸層協議的擁塞控制算法存在不足之處(例如,在長距離傳輸中,Cubic 算法的帶寬利用率低,丟包現象較為嚴重),無法有效地利用帶寬。為了應對超長距傳輸的挑戰,滿足高性能算力互連的需求,承載網必須具備長距無損確定性傳輸能力,并且需要與終端側進行協同,以確保高性能協議的傳輸效率。因此,如何構建大帶寬的確定性網絡以實現千公里級RDMA 的無損傳輸是當前廣域算力互聯領域的研究熱點。

1 RDMA現狀及應用于廣域算力互聯的挑戰

1.1 RDMA 技術介紹

傳統的TCP/IP 存在著網絡傳輸和數據處理延遲過大、多次數據拷貝和中斷處理、復雜的TCP/IP 協議處理等問題。RDMA[1-2]支持本端節點“直接”訪問遠端節點內存的操作,本端節點可以像訪問本地內存一樣,繞過傳統以太網中復雜的TCP/IP 網絡協議棧讀寫遠端內存。由網卡直接進行內存讀寫操作,能夠釋放CPU 算力并降低數據的傳輸時延,這是一種為了解決網絡傳輸中服務器端數據處理延遲問題而產生的技術。

RDMA 有3 種傳輸模式:RDMA Send、RDMA Read和RDMA Write。如圖1 所示,其協議傳輸的主要特征是:以數據塊為單元,一次把所要傳輸數據根據PMTU大小進行切片,直到所有數據塊傳輸完畢;采用PSN系列號機制確認數據的完整性,如果有丟包,則進行重傳;可以配置多隊列、多數據塊請求、調整PMTU 大小、設置網卡隊列緩存大小等參數,提升RDMA 的傳輸效率。針對丟包,采用Go Back N 重傳機制,檢測到PSN 序列號丟失時,則請求從該PSN 序列號之后的報文全部重傳。目前RDMA 協議不支持選擇性重傳,因此,一旦網絡有丟包,則無法保證RDMA 協議的傳輸效率。

圖1 RDMA 3種傳輸模式對比

RDMA 技術主要包括IB、RoCE和iWARP。

IB(InfiniBand):基于InfiniBand 架構的RDMA 技術,需要專用的IB網卡和IB交換機。

RoCE(RDMA over Converged Ethernet):基于以太網的RDMA 技術,需要交換機支持無損以太網傳輸,此時要求服務器使用RoCE網卡。

iWARP(Internet Wide Area RDMA Protocal):基于TCP/IP 協議的RDMA 技術,由IETF 標準定義,目前使用較少。

目前,IB 主要在DC 內應用,因為其鏈路層采用Credit 機制,所以無法實現滿速率的長距傳輸。因此,本文主要討論RoCE 對網絡的要求及相應的解決方案。在RoCE 網絡中,為了確保網絡傳輸過程中不丟包,需要構建無損以太網。目前,主要采用2 種機制:PFC 機制和ECN 機制[3]。PFC 機制是交換節點逐級向上游設備反壓,上游設備緩存報文,若Buffer 達到閾值,則會繼續向上游反壓;ECN 機制是報文在網絡節點中發生擁塞并觸發ECN時,使用IP報文頭的ECN字段標記數據包,這表明該報文遇到網絡擁塞,并將它發送給源端服務器,源服務器收到后,通過降低相應流發送速率,緩解網絡設備擁塞,從而避免丟包。

1.2 RDMA 應用于廣域算力互聯的主要挑戰

RDMA技術最典型的落地業務場景是高性能計算(HPC/AI)。為了滿足超長距高性能算力互連要求,傳統廣域基于TCP/IP 傳輸協議的互聯網絡,面臨3 個方面的挑戰:首先,高性能計算互聯單次突發數據量為MB/GB 級別的大流,而TCP/IP 機制需要把數據切分為小分片(MTU 默認1 500),導致有效載荷低;其次,互聯網網絡采用逐層收斂結構,業務傳輸跳數多,網絡上的數據突發和擁塞都會造成不可預知的時延、抖動和丟包。為保證業務端到端可靠傳輸,RDMA 的丟包重傳機制額外耗費了網絡帶寬,降低了業務吞吐率,進一步導致性能下降。第三,原生RDMA 技術對丟包敏感,難以直接用于有損的廣域網絡傳輸,因此,需要設計高品質無收斂的網絡互聯架構與技術,讓RDMA數據流可以直接承載在具有確定性品質的無損網絡上,中間不再經過多級交換匯聚設備,以減少擁塞,提升吞吐率;考慮到算力互聯間帶寬以100G~400G 的大顆粒為主,適合在源點和宿點之間構筑波長級的一跳直達連接,以避免網絡擁塞和丟包導致的效率降低;而廣域拉遠帶來的傳輸時延是客觀存在的,通過確定性的傳輸時延,與端側RDMA 協議協同調整RDMA 傳輸參數,也是提升RDMA 廣域傳輸效率的有效手段。因此通過架構、技術、協議等多方面的優化和改進,可以有效提高RDMA跨廣域傳輸吞吐率。

2 RDMA在廣域算力互聯的影響因素研究

RDMA 的吞吐率受到諸如距離、丟包、QP 數量和傳輸塊大小等多種因素的影響。本文基于全光網絡的長距環境,對RDMA 的吞吐量進行了研究。驗證環境的組網如圖2 所示,通過OTN 全光無損網絡提供低于10-15誤碼率的高質量長距傳輸鏈路,包括2 條不同長度(200 m和600 km)的光纖鏈路,這2條鏈路的帶寬均為100 Gbit/s?;谶@條OTN 鏈路使用性能測試工具(IB write)進行吞吐量測試。

圖2 RDMA吞吐量影響測試連接

2.1 距離/時延對長距RDMA吞吐量的影響

為了測試長距帶來的時延對RDMA 吞吐量的影響,采用OMSP 保護方式,構建2 條不同長度的光路,一條為200 m,另一條為600 km,默認將OMSP 保護組工作在短路由上,即服務器1 和服務器2 之間的業務流工作在短距離連接上,鏈路誤碼率為10-15,服務器1和服務器2 通過IB write 打流,鏈路最高吞吐量為100 Gbit/s。具體如圖3所示。

圖3 不同距離下對長距離RDMA影響測試

然后,通過觸發LOS 將工作路由切換到長路徑上,再次用IB write 打流測試。結果顯示,吞吐量只有原來的1/10,即約10 Gbit/s。這表明,隨著傳輸距離的增加,ACK 回復變慢,導致網卡出口緩存被占滿,業務吞吐率下降。在調整IB write 參數的情況下,增大RDMA 塊大小或者QP 數量,RDMA 在600 km 長距離下達到滿速100 Gbit/s(百分百吞吐量)。因此,在鏈路無損的情況下,RDMA 協議需要根據傳輸距離設置合適的QP 數量或塊大小,以保證長距離吞吐量不下降(見圖4)。

圖4 RDMA協議中對應QP數量或塊大小調整示意

2.2 丟包對長距離RDMA吞吐量的影響

長距離丟包的主要原因有2 類,一類是以太客戶側的丟包,例如尾纖和連接器出問題時導致的丟包,另一類是光線路側的丟包。長距離傳輸雖然會出現誤碼,但是相干系統自帶FEC 糾錯功能,所以光線路側丟包主要是由瞬斷導致的。

以太客戶側的丟包主要原因有:尾纖問題和連接器問題。

a)尾纖問題:尾纖是用于傳輸電信號的光纖,如果尾纖質量不佳或者使用不當,就會在信號傳輸過程中出現丟失、反射、噪聲等問題,從而導致丟包。例如尾纖損壞或者有污點,都可能在信號傳輸過程中出現丟失現象,從而導致丟包。

b)連接器問題:連接器是用于連接尾纖和設備的接口,如果連接器質量不佳或者使用不當,就會在信號傳輸過程中出現丟失、反射、噪聲等問題,從而導致丟包。例如連接器損壞或者有污點,都可能在信號傳輸過程中出現丟失現象,從而導致丟包。

光纖瞬斷是光線路側丟包的典型問題,常見的瞬斷原因包括如下3種。

a)光纖質量問題。光纖質量問題是導致光纖瞬斷的主要原因之一,光纖的質量直接影響其傳輸能力和可靠性。如果光纖存在質量問題,如損壞、污染、彎曲度過度過大等,就會導致光纖傳輸過程中出現短期中斷。

b)環境因素。環境因素包括溫度、濕度、光照等。在某些環境下,如高溫、低溫、高濕度、低光照等,光纖的傳輸性能會受到影響,從而導致光纖瞬斷。

c)人為因素。人為因素包括光纖的意外彎曲、拉斷、碰撞等,這些因素可能會導致光纖出現短期中斷。

由于RDMA 對丟包敏感,一旦光纖瞬斷導致丟包頻繁出現,會引起RDMA 協議層Go Back N 機制重傳丟包后的所有報文,導致RDMA 吞吐率急速下降(見圖5)。

圖5 光纖瞬斷對RDMA傳輸的影響

實驗室通過在光路上增加噪聲的方式,模擬線路出現大量誤碼造成光纖瞬斷的情況。通過抓包觀察,發現此時RDMA 業務會出現時斷時續的現象,測試結果顯示,當業務丟包率達到萬分之六以上,RDMA的吞吐量會直線下降(見表1)。

表1 丟包率與帶寬關系表

2.3 流控機制對長距離RDMA吞吐量的影響

基于優先級的流量控制(Priority-based Flow Control,PFC)是一種能夠有效避免丟包的流量控制技術。PFC 基于優先級的流量控制,將流量按照優先級進行分類,從而實現對不同優先級流量的控制。當下游設備的無損隊列發生擁塞時,下游設備會通知上游設備停止發送該隊列的流量,從而實現零丟包傳輸。

在長距離傳輸場景中,當宿端發生擁塞時,當前典型的DCN 內交換機是小緩存配置,無法支持2 倍RTT 的流量緩存能力。因此,流控信號需要長距離傳輸的網絡設備進行響應,這就要求OTN 傳輸設備具備PFC流控響應能力,能緩存網絡上流量并保證不丟包,同時具備逐級向上反壓流量的能力,從而與DCN 交換機協同實現長距離無損。

在實驗室中構造如圖6 所示的測試場景。首先,通過2臺儀表構建1條25 Gbit/s的背景業務流,然后從服務器1 發起流量為80 Gbit/s 的RDMA 業務到600 km外的服務器2。因為原宿節點交換機端口和OTN 均為100G 端口,所以在宿端Spine 交換機將業務流轉發到TOR 交換機時,總帶寬超過100 Gbit/s,會出現流量擁塞。實驗結果如下。

圖6 實驗室RDMA測試連接示意

a)OTN 不開啟PFC流控:由于宿端DCN 網絡發生擁塞并導致丟包,RDMA的重傳進一步加劇了擁塞,導致更多的丟包,服務器業務的有效帶寬從80 Gbit/s 降到9 Gbit/s。

b)OTN 開啟PFC 流控:服務器丟包現象消失,由于OTN 收到宿端Spine 交換機發送的擁塞信號,首先響應PFC 流控,并通過Buffer 緩存正在發送的流量。同時,它生成新的PFC 信息,向上游發送流控幀通知,逐級反壓到達服務器端側,端側降速以達到端網協同,防止無效重傳。實驗室測試結果顯示,開啟OTN流控功能后,服務器業務的有效帶寬從9 Gbit/s提升到76 Gbit/s。

2.4 小結

實驗結果顯示,物理網絡的參數和服務器端側參數都會對長距離RDMA 的吞吐量產生影響。其中,距離是影響RDMA 吞吐量的最重要因素之一,隨著距離的增加,RDMA 的吞吐量會逐漸降低;網絡側丟包/誤碼也會對RDMA 的吞吐量產生影響,當發生丟包時,RDMA 的Go Back N 機制需要從丟包的位置重新發送后續的全部數據,這導致業務的有效吞吐量顯著降低;服務器端側隊列對(QP)數量也會對RDMA 的吞吐量產生影響,QP 數量越多,RDMA 吞吐量就越高;服務器端側的塊大小也是影響RDMA 吞吐量的因素之一,較大的塊大小可以提高RDMA的吞吐量。

根據上述特征,為了保證RDMA 數據傳輸的效率,防止擁塞、無效重傳、時延不穩定導致的性能下降,傳輸鏈路應具備確定性的長距離無損能力。

a)傳輸鏈路應具備穩定的低時延能力,從源端到宿端光層一跳直達,盡量減少電交換設備,以實現極致低時延,從而最大化傳輸效率。

b)傳輸鏈路應保持低誤碼率,誤碼率越低越好,以避免因誤碼導致的丟包、閃斷等重傳問題,從而確保性能的穩定。

c)傳輸鏈路要避免擁塞,應盡量使用確定性的無擁塞管道傳輸,防止網絡設備擁塞導致丟包影響業務,產生無效重傳。

d)傳輸鏈路應具備與端側協同的能力,傳輸設備應能與服務器端側之間互通狀態信息,當端側能夠感知到物理層狀態參數信息時,就能靈活調整RDMA 發送參數,從而實現長距離高吞吐量傳輸。

e)傳輸鏈路提供超大帶寬能力,縮短搬移周期,促進數字經濟的高速發展。

3 確定性光傳輸廣域RDMA 解決方案

如圖7 所示,當前算力中心之間有2 種互聯方式:一是通過互聯網出口互聯,這種方式容易受到互聯網擁塞、丟包的影響,從而導致RDMA 廣域傳輸性能嚴重劣化;二是通過專線方式互聯,這種方式可以解決互聯網擁塞等問題,但數據中心內部經過大量的交換機及服務器處理轉發,也會導致RDMA 廣域傳輸性能受限。以某超算為例,DCN 內需要經過約15跳節點處理才能到DC 專線出口路由器節點,導致轉發處理時延長。

圖7 算力中心互聯方式

為了實現RDMA 廣域高性能傳輸,算力互聯網絡架構需要優化:構建算間全光高速平面,將DCN 網絡的Spine/leaf節點直連OTN 光傳輸設備,OTN 設備基于物理層參數數據與端側業務參數協同,實現高吞吐長距離傳輸。

全光網[4]具備高品質、確定性、高安全、低時延、低抖動等優勢,是實現RDMA 無損拉遠的理想技術,可視為新型算力協同互聯的最佳解決方案。通過全光網絡承載提供高品質、高可靠的算網保障,可有效保證長距傳輸時RDMA 的高吞吐量,以實現高效算力協同。因此,構建全光算力網方案需要從以下幾個方面展開。

3.1 Mesh化組網架構

以算力為中心,規劃“1 ms-5 ms-20 ms”覆蓋從城域至樞紐的多級時延圈,通過確定性鏈路帶寬、時延和可用率,以及網絡端到端硬隔離、安全可靠品質實現分布式算力節點間Mesh 化連接。這種連接方式具備靈活高效調度能力,使算力能效最大化。具體如圖8所示。

圖8 算力節點間組網架構示意

算力節點間互聯采取Mesh化、立體化拓撲進行組網,全面部署OXC,通過聯動OTN 實現光電協同高效調度。鏈路路由去行政化,減少路由迂回,實現最低的網絡時延。樞紐內算力互聯以400G/800G 系統為主,樞紐間算力互聯以單波400 Gbit/s 的系統為主,同時具備向單波800 Gbit/s及更高速率演進的能力,頻譜從C 波段擴展到L 波段,單纖容量得到顯著提升(相比當前提升4~8 倍以上),單位比特的能耗大幅降低,最大化機房、光纜等基礎設施的利用率。

3.2 光電協同提供波長級超大帶寬,并支持端網協同實現最大吞吐量

網絡需要端到端的波長級調度能力,通過在部分站點預留端口資源,并與超級備波資源一起構建站點資源池化能力,以支持波長在任意方向的無阻塞調度。在網絡進行波長級調度或者工作保護路徑倒換后,網絡的時延等變化需要通知端側,端側RDMA 根據變化后的時延等調整RDMA 的參數(如QP 數、塊大小、RDMA MTU),以確保RDMA 的最大吞吐率。光電交叉協同示意如圖9所示。

圖9 光電交叉協同示意

a)光電跨層協同算路:在光+電協同算路中,首先引入光層數字孿生技術,構建實時、高精度反映BER/OSNR/PDL/SOP/非線性/色散等光學物理量變化的數字光底座,在線評估預開通波長鏈路的可達性?;跀底止獾鬃?,引入光電聯動智能規劃算路、光電交叉同步配置、光系統自動調測、光性能自動均衡等管控自動化技術,實現光傳輸L0/L1 層協同算路,即根據業務SLA 自適應選擇線路速率、碼型、譜寬等參數,自動計算出滿足時延、業務可用率要求的工作、保護光鏈路(見圖10)。

圖10 光電協同算路示意

b)光電交叉同步創建:光交叉、電交叉同步打通,業務一次性創建,無需分步驟等待(見圖11)。

圖11 光電交叉同步創建示意

c)自動調測一鍵式開通:OCH 創建后光層自動調測,在線自動化插損預置,無需人工干預,業務自動打通(見圖12)。

圖12 波長調整示意

在光電鏈路路徑切換后,網絡鏈路的帶寬和時延都可能出現變化,為了達到最大的吞吐量,RDMA的并發QP 對數量和塊大小都需做相應的調整。工作保護路徑切換同樣也存在類似的訴求。在網絡路徑因為鏈路故障導致保護倒換后,網絡時延RTT 會發生變化,從而導致RDMA 傳輸性能下降。實測表明,工作路徑為200 m,RDMA的QP數為1,塊大小為20 KB時,RDMA 吞吐量即可達到80 Gbit/s。倒換到保護路徑(600 km)后,QP 數需增加到25 個,塊大小為1 KB,才能達到80 Gbit/s。所以,在波長調度或者路徑保護倒換后,網絡將最新的帶寬和時延信息通知端側的RDMA 網卡,端側收到信息后調整QP 數和塊大小,從而實現最優傳輸性能。

3.3 高通量RDMA廣域無損傳輸

為解決當前廣域網數據傳輸存在的問題(即采用TCP傳輸協議導致物理鏈路傳輸通量無法得到有效提升問題)和業務節點因網絡轉發大量消耗CPU 算力的問題,建議采用RDMA 傳輸方式替換TCP 傳輸方式,以實現高性能算力互聯(見圖13)。

圖13 采用OTN承載高通量RDMA廣域無損傳輸示意

利用OTN 網絡零丟包、穩定低時延、大帶寬的承載品質,通過RDMA 長距離無損流控技術、端網協同感知,配置最優業務參數等核心技術方案,使RDMA傳輸協議可應用于廣域網下的海量數據搬運,從而使鏈路通量無限逼近物理鏈路帶寬。

4 總結

長距離RDMA 作為新一代廣域高性能算力互聯的一種技術,是業界的研究熱點,然而,目前該技術的技術標準和產業生態都不夠完善,需要進一步結合新型全光網絡架構提供的超大帶寬及確定性體驗特性,持續優化RDMA 協議。同時,考慮RDMA 協議層與全光網絡物理層的上下感知聯動,以實現超長距離下的高吞吐量無損傳輸。

猜你喜歡
廣域長距離算力
多方求解智能時代算力挑戰
這個第二不一般
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
廣域雷達信息采集系統應用
水錘防護措施在某長距離供水系統中的應用
支持長距離4K HDR傳輸 AudioQuest Pearl、 Forest、 Cinnamon HDMI線
長距離多起伏輸水管道爆管分析與防護探討
基于免疫算法的高容錯性廣域保護研究
我國最長距離特高壓輸電工程開工
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合