?

數據中心光互聯模塊發展趨勢及新技術研究

2024-03-16 10:49宋夢洋武漢光迅科技股份有限公司湖北武漢430205
郵電設計技術 2024年2期
關鍵詞:液冷算力功耗

宋夢洋,朱 虎,江 毅(武漢光迅科技股份有限公司,湖北武漢 430205)

0 引言

隨著云計算、大數據、超高清視頻、人工智能、5G行業應用等快速發展,網絡訪問頻率、接入手段、數據處理和計算需求不斷增加。特別是隨著AI 大模型應用的快速發展,國內外公司紛紛推出相關模型,各地開始啟動智算數據中心建設。國際知名咨詢公司LightCounting 數次上調光互聯模塊市場規模預測,主要驅動力均來源于AI 大模型智算數據中心旺盛的算力需求。

根據中國信息通信研究院發布的《中國算力發展指數白皮書(2022)》(見圖1),2021年美國算力規模占全球份額的34%,中國以33%的占比位居全球第二。美國、中國、日本的GDP 依次位居全球前三,而三者的算力能力也為全球前三,算力規模與國家GDP 呈現正相關關系[1]。2023 年10 月,工業和信息化部等六部門聯合印發《算力基礎設施高質量發展行動計劃》,完善算力綜合供給體系,提升算力高效運載能力。2023 年12 月,國家發展改革委等五部門聯合印發《深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》,大力推進算力網絡建設,預計到2025 年底,綜合算力基礎設施體系將初步成型。

圖1 2021年全球算力分布情況[2]

算力網絡的發展需要高速率、高帶寬與高能效的互聯技術來支撐,將高性能計算數據中心、AI 數據中心以及基礎算力數據中心統一連接起來,形成集成化的數據中心,從而實現算力的協同調度。

在這些需求帶動下,用于數據中心互聯的光模塊處于高速發展階段:400 Gbit/s光互聯模塊發貨量快速增長,800 Gbit/s進入批量化進程,更高速率的1.6 Tbit/s 光互聯模塊研發工作已經開展,全球主要標準化機構和多元協議組織(MSA)紛紛啟動了基于單通道200 Gbit/s 的1.6 Tbit/s 光模塊標準的研究和制定,IEEE 在2021年底給出了相關標準的預計完成時間(見圖2)。

圖2 基于單通道200 Gbit/s的標準化時間節點[3]

1 數據中心光互聯模塊發展現狀

數據中心光互聯應用主要分為兩大類(見表1):一類是數據中心內部的互聯,典型光纖傳輸距離為2 km 及以內;一類是數據中心之間的互聯,典型光纖傳輸距離為80 km及以上。

表1 數據中心互聯場景[4]

典型光互聯方式包含以下幾種。

a)直連電纜(DAC),該方案采用銅纜,傳輸距離隨帶寬的增加而減少,但成本相對較低。

b)有源光纜(AOC),將光纜和光模塊進行集成,光纜可根據傳輸距離進行配置,傳輸距離通常為100 m及以內。

c)光模塊,根據傳輸距離需求采用不同規格的光模塊,用于連接服務器、交換機等網絡設備,承載高速數據的收發。

在數據中心內部互聯場景中,以上幾種互聯方式均有采用,隨著數據中心不斷向高帶寬、高速率演進,并且由于供電、GPU 應用數量等原因,數據中心內部互聯以基于直調直檢方案的光模塊和AOC 為主。在數據中心之間的互聯場景中,主要采用相干光模塊進行連接。

數據中心內部光互聯模塊的發展與交換機交換芯片串行-解串行器(Serdes)的發展進度密切相關,交換機及光模塊發展趨勢見表2。2023 年交換芯片Serdes 的速率達到112 Gbit/s,交換芯片吞吐量相應達到51.2 Tbit/s,根據交換芯片演進趨勢、市場需求及技術成熟度,預計2025 年交換芯片吞吐量將達到102.4 Tbit/s,2027 年將達到204.8 Tbit/s,光互聯模塊也需要相應演進到1.6 Tbit/s和3.2 Tbit/s對其實現有效支撐。

表2 交換機及光模塊發展趨勢預測

相干技術已經成為數據中心之間互聯的主流方案。在多個標準化組織的大力推進下,400 Gbit/s光模塊已發布多項標準,如400ZR、400G OpenROADM、Open ZR+等均采用DWDM 技術,在C 波段進行傳輸,結合DP-16QAM 調制格式,可實現80~120 km(純裸纖傳輸距離為40 km,增加光放可達到120 km)的高速傳輸。

隨著400 Gbit/s 光互聯模塊的批量化應用,800 Gbit/s 光互聯模塊開始進入樣品或小批量發貨階段,標準研究接近尾聲(見表3和表4),后續隨著標準的正式發布,將逐步走向批量化應用。

表3 800 Gbit/s光模塊標準化進展

表4 800 Gbit/s光模塊標準部分技術方案[4]

2 數據中心光互聯發展趨勢及新技術

AI 算力網絡與常規數據中心相比,對計算的需求量每18 個月增長10 倍,對高帶寬、低時延的光互聯需求更加迫切。目前國內外標準化組織紛紛啟動1.6 Tbit/s光互聯模塊的研究工作,主流光模塊廠家均已完成1.6 Tbit/s光模塊的樣機研制工作(見表5)。

表5 1.6 Tbit/s光模塊標準化進展

隨著速率和帶寬的增長,功耗也隨之成倍增長。交換芯片、SerDes 和光模塊是功耗增加的主要因素。據推算,交換機從640 Gbit/s發展至51.2 Tbit/s,帶寬增長80 倍,功耗同時增長22 倍。其中,專用集成電路核心(ASCI Core)的功耗增長8 倍,系統風扇的功耗增長11 倍,交換芯片SerDes 的功耗增長25 倍,光模塊功耗增長26倍。將51.2 Tbit/s交換機的整機功耗按照上述4 個維度進行分解,光模塊的功耗約占交換機整機功耗的一半。因此在進行更高速率光互聯模塊開發設計時,功耗是無法繞開的瓶頸,目前行業中正在蓬勃發展的各項新技術,其主要需求驅動均為功耗控制。

2.1 光電集成——硅光技術

硅基光電子(簡稱硅光子)基于微米/納米級光子、電子及光電子器件的新穎工作原理,可使用與硅基集成電路技術兼容的技術和方法,在同一硅襯底上實現單片或混合集成[5]。以此為基礎的硅基光電子集成平臺,可以利用現有的微電子工藝和成果,在硅襯底上同時集成微納米尺寸光學回路與各類CMOS 集成電路如調制器、探測器、互阻放大器、數字信號處理模塊以及各類無源器件等,形成具有若干種功能的大規模集成芯片。硅光子技術結合了CMOS 技術的超大規模邏輯、超高精度制造特性和光子技術超高速率、超低功耗優勢,是一種可解決技術演進與成本矛盾的創新性熱點技術,并已在通信光模塊應用中發揮了積極作用,目前其技術發展勢頭強勁,產業規模不斷擴大,產品與應用進展也在不斷推進[5]。

硅光子集成技術的發展受到多方力量驅動。首先,從集成角度來看,集成光器件相比分立光器件具有體積小、穩定性高等優勢,可以大大減少分立光器件的數量和封裝界面,減少傳輸路徑,從而降低產品功耗;其次,從材料角度來看,硅相對于InP 和GaAs 等半導體材料價格更為低廉,且有望基于現有成熟、發達的微電子工藝,發揮規模優勢提高工業化水平,從而進一步降低成本。

硅光子產品主要包括硅光子集成芯片和硅光子光模塊(見圖3)。目前硅光子技術憑借高集成度、低功耗、小型封裝、大規??缮a性等優勢,與共封裝技術和薄膜鈮酸鋰調制技術聯合應用,有望在800 Gbit/s、1.6 Tbit/s甚至更高速率的短距和相干應用中成為主力方案。

圖3 1.6 Tbit/s光收發模塊的COB封裝器件

根據LightCounting 預測,到2028 年,硅光產品的市場份額將從2022年的25%增長至43%,領先的供應商都在布局硅光技術。但硅光技術的耦合效率仍相對較低,產業鏈完整性相比于Ⅲ-Ⅴ族仍有缺失,垂直整合能力有限。目前,國內硅光廠家已經開始硅基光電芯片晶圓級測試方法、硅光集成芯片技術規范等方面的行業標準編制工作。

2.2 共封裝技術

光電合封(CPO)是將交換芯片、專用集成電路(ASIC)和光/電引擎(光收發器)共同封裝在同一基板上,使引擎盡量靠近ASIC,以最大程度地減少高速電通道損耗和阻抗不連續性,從而有效降低整個系統的功耗。

光電合封的技術方案和應用場景主要聚焦在以下2個方面。

a)基于垂直腔面發射激光器(VCSEL)和多模光纖的解決方案,以30 m 以內的應用為主,主要面向超算及AI機群的短距離光互聯。

b)基于硅光和單模光纖的解決方案,以2 km以內的應用為主,主要解決大型數據中心機架及機群之間的光互聯。

相較于可插拔光模塊以及板載光模塊,光電合封技術有如下優勢。

a)光模塊中高速電信號在印制電路板(PCB)上傳輸越來越困難,目前的PCB技術將112 Gbit/s以上的電信號從交換芯片傳送到位于交換機面板的光模塊難度較大。光電合封技術將交換芯片與光電轉換單元封裝在一起,可降低高頻線路以及信號完整性電器件的使用要求,突破電信號傳輸瓶頸,提高數據通信的交換容量。

b)光電合封技術將光引擎置于板載上,靠近ASIC芯片,可釋放前面板的壓力。

c)在熱插拔光模塊中,DSP 是高功耗的主要來源。在光電合封場景中,考慮到交換芯片本身具有均衡能力,可直接由交換芯片的Serdes驅動光引擎,光模塊中高功耗的DSP/CDR 可被省略,從而降低功耗。此外,光電合封技術采用外置光源方案,將激光器置于光收發單元外部,可降低光收發單元的熱量,同時便于維修,出故障時只更換激光器即可,進而降低成本[6]。

1.6 Tbit/s光模塊雖然已基本確認仍將采用可插拔方式設計生產,但隨著AI計算等大交換機吞吐量需求的出現,光電合封技術在提升整個鏈路性能方面具有較大潛力,或將是更高速率光互聯的主流解決方案。CPO 技術目前仍有許多亟待解決的關鍵技術問題,例如高密度光纖連接的管理、散熱管理、封裝測試的良率以及可靠性等問題,需要業界共同摸索和實踐。標準化方面,OIF 已發布外置光源和3.2 Tbit/s 的CPO 標準,CCSA也立項了關于外置光源的行業標準。

2.3 薄膜鈮酸鋰調制技術

伴隨著光刻技術的不斷進步和混合集成工藝的發展,鈮酸鋰薄膜脊型波導結構的制造為薄膜鈮酸鋰調制器的開發奠定了基礎。薄膜鈮酸鋰調制器繼承了體材料鈮酸鋰良好的物理化學穩定性,具有光學窗口寬、電光系數大、高線性度等優點,并通過優化設計可有效避免調制效率低、尺寸大等缺點。薄膜鈮酸鋰調制器的技術核心是對光波導結構和電極結構進行匹配設計,使其光電響應匹配,提高工藝精度,損耗減少,從而實現高性能、低功耗、小尺寸、低驅動電壓的新型調制器,降低光互聯模塊的功耗。

各大廠商正在積極開發800 Gbit/s 光互聯芯片,128 GBaud 波特率相干光通信芯片以及60~70 GHz 以上帶寬的特種通信用調制器芯片,它將成為未來超高速光互聯領域的主流方案之一。

2.4 線性直驅技術

在光模塊內部,發送端信號需經過數模轉換(DAC),將數字信號轉換為模擬信號;在接收端,模擬信號經過模數轉換(ADC)后,再轉換為數字信號。數字信號處理(DSP)芯片的主要功能是進行ADC/DAC、變速管理芯片(gearbox)的信號變速、電信號劣化補償以及時鐘數據恢復(CDR)。DSP 是高速光模塊的關鍵部件之一,但是功耗較高,其功耗約占光模塊總體功耗的50%~60%。

線性直驅技術(LPO)在光模塊中去除DSP/CDR芯片,模塊內部只處理線性信號,由設備側進行非線性信號的處理,從而降低光模塊的功耗和成本。目前,LPO技術已在400 Gbit/s、800 Gbit/s速率上得到一定應用,但傳輸距離主要為500 m 及以內,后續的規?;瘧眠€需要技術的進一步發展、測試方法的建立以及標準的牽引。目前中國通信標準化協會已經啟動LPO光模塊研究課題,為后續標準化進行行業和技術分析。IPEC也啟動了關于LPO方面的研究。

2.5 液冷光模塊技術

為解決數據中心高密度設備散熱和降低電源使用效率(PUE)的難題,液冷技術已獲得廣泛應用,從而產生對能夠在液冷環境中配套使用的液冷光模塊的需求。

液冷光模塊需防止冷卻液進入光模塊內部光路,即光器件、光器件與光接口之間、光接口與尾纖之間存在的光路需整體采用密閉封裝(液密封裝),以實現同外部冷卻液的完全隔離。液冷光模塊的密封技術包括氣密封裝和液密封裝或者2 種封裝方式的結合,這些技術保證光模塊的密封性,防止氣體或液體從內部泄漏到外部或從外部進入內部等。

液冷光模塊能夠很好配合系統進行散熱,但相比常規光模塊在成本方面有一定增加。主要體現在2個方面:一是物料成本,需采用絕緣、導熱性能好、穩定性強的密封材料;二是加工成本,需通過較高的工藝和制造水平實現密封,且不能影響原性能參數、電磁兼容特性等要求[7]。

目前中國通信標準化協會已經完成用于液冷系統中的光模塊的研究課題,正在進行用于液冷系統的光模塊的標準立項申請。

3 結束語

隨著算力網絡概念的提出和推進,數據中心將進入高速發展快車道,光互聯模塊的機遇與挑戰并存,國內外企業積極開展各項新技術的研究和實踐。建立和完善涵蓋光互聯模塊產業上下游的產業生態至關重要,為數據中心互聯的健康發展提供有效支撐。

猜你喜歡
液冷算力功耗
多方求解智能時代算力挑戰
這個第二不一般
衛星通信在算力網絡中的應用研究
厭氧膠在液冷板缺陷修復中的工藝技術
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
制動器液冷控制系統模糊控制策略
基于任務映射的暗硅芯片功耗預算方法
航天服的液冷服有什么用?
航天服的液冷服有什么用?
揭開GPU功耗的面紗
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合