?

我國算力產業發展挑戰與建議

2024-05-03 09:16郭亮
信息通信技術與政策 2024年2期
關鍵詞:算力發展

郭亮

(中國信息通信研究院云計算與大數據研究所,北京 100191)

0 引言

算力作為數字經濟的堅實基礎,備受各方關注。從我國東南沿海到西北內陸,從工業生產到百姓生活,算力正為各行各業的數字化注入新動能,成為經濟社會高質量發展的重要驅動力。自《新型數據中心發展三年行動計劃(2021—2023年)》的發布實施,到生成式人工智能(Artificial Intelligence,AI)大模型掀起AI應用熱潮,再到《算力基礎設施高質量發展行動計劃》的發布,都將進一步推動我國算力產業的高質量發展[1]。研究算力發展實際情況,分析算力發展現存問題,是制定未來算力發展策略的關鍵舉措。本文立足當前我國算力發展現狀,客觀分析我國算力產業發展現存挑戰,為推進我國網絡強國新征程提供發展建議。

1 我國算力發展現狀

1.1 算力規模增長迅猛

近年來,我國數據中心在用標準機架數量年復合增長率超過30%,截至2023年6月,我國在用數據中心機架總規模超過760 萬標準機架,算力總規模達到197 EFLOPS,存力總規模達到1 080 EB,年增速達到25%[2]。算力設施內、算力設施間、用戶入算等網絡創新發展,有力支撐AI、云—邊—端協同、“東數西算”等應用場景。

1.2 布局結構日益優化

“東數西算”實施后,我國西部樞紐算力設施建設加快,國家樞紐節點—省內—邊緣協同發展的算力梯次布局體系初步形成,算力結構也逐步從早期通用占主體演變為通用—智算—超算協同發展的格局。隨著AI應用的快速興起,智算中心建設步伐加快,截至2023年6月,全國已投運的AI計算中心達到25 個,在建的AI計算中心超過20 個,智能算力規模占整體算力規模的比例已提高到25.4%[3]。

1.3 算力技術創新活躍

我國計算機領域發明申請數量劇增,算力、存力、運力領域創新成果不斷涌現??萍脊炯铀賵D形處理器(Graphics Processing Unit,GPU)等AI芯片研發,國內相關企業紛紛推出自研產品;“星河”AI網絡、先進存儲、液冷技術等很好地支撐了當前的智算需求。我國在計算、網絡和存儲方面都取得了很大進展。

1.4 算力賦能產業發展

隨著我國算力規模的持續擴大,互聯網、大數據、AI等與實體經濟融合發展的新業態、新模式正加速涌現,算力正加速從互聯網、電子政務等領域向服務、金融、制造、交通、醫療等行業滲透,成為傳統產業智能化改造和數字化轉型的重要支點。與此同時,算力應用也逐漸向城市治理、智能零售、智能調度等領域延伸,激發數據要素新活力,助力數字經濟高速發展。

2 算力發展面臨的挑戰

2.1 算力協同仍需穩步推進

“東數西算”工程助力我國算力發展踏上新臺階,但就目前實施效果來看,距離我國東西部算力協同均衡發展仍有差距。首先,我國東西部之間商業模式協調機制仍需持續完善。我國東西部算力協作發展不僅需要依靠自身努力,也需要一定的商業模式來激勵,我國西部能源供應價格優勢與東部產業西遷成本收益之間的平衡需要一定的協調機制來保障。其次,樞紐節點算力結構需要持續優化。雖然目前我國已在大力推動智算中心建設,但大模型的訓練迭代對智能算力需求的拉動遠超預期,當前樞紐通用算力與智能算力的供需比例仍有一定差距。最后,同質化競爭帶來的市場壓力需要調解。由于同質化競爭,部分地區價格戰加劇,導致原本的成本定價被轉變為市場定價,對數據中心相關企業發展帶來一定壓力。

2.2 算力生態仍需持續完善

近年來,我國不斷鞏固算力基礎設施,培育算力產業優質企業,推進算力賦能經濟發展,健全算力產業生態,但目前發展仍需進一步提升,算力生態建設仍需持續完善。我國部分地區數據中心的實際運行業務效果與算力設計規模構想存在一定差距,以“筑巢引鳳”的方式實現“新舊”動能轉換的期待尚未實現,亟待推動從企業個體的位置空間聚集到有機融合的產業鏈條聚集,從而促進算力上、下游產業及應用生態市場協同發展。

算力拉動經濟增長的潛力仍有較大挖掘空間。算力產業發展與當地資源稟賦結合不夠緊密的現象仍然存在,導致算力產業未能深入賦能當地實體經濟發展,算力產業發展帶來的技術創新和成果尚未充分轉化為當地數字經濟的增長動力等問題,仍需持續開展算力應用賦能的舉措、深挖算力賦能經濟增長的潛力空間,將算力真正融入當地實體產業,充分轉化為當地經濟發展動能。

2.3 算力創新仍需全面提升

大模型等技術的迅速發展為算力產業發展帶來了新挑戰,目前我國算力核心技術創新力度不夠,技術方面仍存在相對短板。在綠色低碳方面,我國現有先進數據中心電能利用效率最低已達1.05以下,達世界先進水平,但源網荷儲一體化供電系統等低碳發展重要技術推廣仍然受限,源荷對接存在一定困難[1]。

在算力調度方面,部分省市已上線調度平臺;中國算力平臺持續完善算力監測、匹配和調度等方面的能力,部署節奏加快,但算力調度的商業模式和技術細節仍需進一步探討。在高端芯片和軟件研發方面,我國自主創新能力仍需加強,對進口產品和技術仍有一定依賴,關鍵技術的“卡脖子”風險依然存在,難以支撐大模型、元宇宙等高性能場景建設。此外,國產數據庫、中間件、操作系統等基礎軟件適配性、兼容性不足,對主流軟件應用環境構建的支撐能力偏弱。

2.4 算力應用仍需深化拓展

當前,我國算力應用行業持續多元化拓展,為產業注入發展新動能,但算力應用深度仍需推進,算力供給與行業應用之間的銜接仍需加強。一方面,我國算力提供商缺少一體化解決方案,技術到落地過程仍存在一定障礙。算力技術與行業場景結合過程中需要較強的行業經驗,而目前我國算力企業與人才在細分領域的儲備尚不足支撐現有項目的長期深耕和成果應用轉化。另一方面,傳統企業缺乏對算力增益效用的認知與實踐。傳統企業的數字化轉型日益加速,但現有的算力應用相對較淺,在頂層規劃、轉型方法、項目落地等思維方式和實踐部署方面仍需進一步強化。

2.5 算力安全仍需加強保障

隨著算力向生產生活各個領域的滲透逐漸深入,算網融合持續推進,算力作為轉換數據價值的生產要素,安全保障至關重要,系統安全影響需重視。隨著虛擬化技術的發展,算力應用對各種服務組件的依賴加大,而底層服務組件往往支撐著大量業務,一旦發生故障,諸多產品將受到影響,引發行業震動。

集群安全防護亟需增強。算力產業不斷集聚發展,集群部署讓算力資源更為集中,攻擊目標更為明顯,網絡供給與威脅升級,影響后果更為嚴重,在傳統設備級、系統級、算力中心級的安全防護基礎上,亟需構建集群安全防護體系,增強防護能力。不穩定的水電供應,或者對傳輸線路和設施的物理破壞都會導致算力集群的宕機。

3 算力互聯面臨的挑戰

3.1 產業需求無場景

大模型訓練需要大規模的集群算力處理。隨著數據并行和模型并行技術的不斷完善和提升,分布式訓練中可以使用千卡或萬卡規模的GPU來縮短整體訓練時長。數據顯示,GPT-4的參數規模為1.8 萬億個,訓練GPT-4約為2.15e25 FLOPS,在大約2.5 萬個A100上訓練了90~100天,利用率僅在32%~36%之間[4]。

2023年,購入超過2 萬張GPU卡的國內公司僅騰訊、百度、阿里巴巴和字節跳動4家[5]。為充分發揮算力算效,這些企業均自建了大規模智算集群,為業內提供算力相關的服務。在正常發展情況下,未來大模型需要的計算能力相對于目前只增不減。大規模集群算力處理大模型、小規模算力處理小模型將成為業界常態。

3.2 技術瓶頸難突破

大模型并行計算模式采用分布式計算能力來處理大量的訓練任務。由于帶寬和時延的限制,并不是把幾個小規模的集群遠程連起來就能處理大模型。

在完成自身的計算任務后,節點需要將結果快速地同步給其他節點,以便進行下一輪計算;在此之前,計算任務處于等待狀態。目前,每塊GPU至少會配置100 Gbit/s的網卡[6],且帶寬占用較滿;如果帶寬不夠,會造成網卡間通信時間變長,影響加速比和訓練效果。算力中心存在大量東西向流量,思科全球云指數統計,數據中心內部之間的流量占比為71.49%[7],隨著智算的爆發,比例會更高。通常每機架配置百兆帶寬,但如果要實現所謂的GPU遠程互聯,理論上單機架兩臺GPU服務器就需要1.6 Tbit/s的帶寬,換算成智算中心的出口帶寬將是天文數字。

在時延方面,智算中心內“一跳可達”的場景下,無限帶寬技術和基于以太網的遠端直接內存訪問技術均能支持應用層的端到端時延微秒級。為了保證性能損失在5%以內,數據庫集群系統要求至少40 Gbit/s的吞吐和3 μs的網絡往返時延[8]。目前,北京—呼和浩特的端到端時延為12 ms,是集群內應用層端到端時延的1 000 倍。這樣的網絡時延,對大模型訓練、數據庫等應用來說是不可接受的。

3.3 安全穩定難保障

由于計算量較大,分布式訓練任務需要持續數天或數周。在訓練期間如果出現故障,輕則任務回退到上一個斷點進行重訓,重則整個任務將從0開始。分布式AI計算是同步的,并且希望訓練任務具有可預測的完成時間[9]。在智算網絡中,每千分之一的丟包將導致網絡性能下降50%[10]。在正常情況下,互聯網的丟包率在0%~1%,“盡力而為”的互聯網顯然不符合智算網絡的穩定性需求。

4 我國算力發展建議

為進一步推動政策措施有效落地,增強算力應用賦能實效,針對我國算力發展現存挑戰,結合我國現階段算力產業發展基礎,提出我國算力高質量發展對策建議。

4.1 以市場為導向,政府引導應用發展

加強算力發展的宏觀指引,明確產業發展方向。充分發揮市場作用,在北京、上海、深圳等應用需求旺盛的地區及其周邊地區適度加大發展力度。強化工程的引領作用,通過創建算網城市、打造算力中心標桿等方式形成示范效應,促進各地算力設施的高質量建設。

4.2 以協同為重點,推動全面一體發展

探索解決我國東西部的資源使用和利益分配問題,充分結合我國東西部自身優勢,創新合作模式與機制,鼓勵開展“以數換電”商業合作。推動我國西部樞紐緊抓機遇,對算力全產業鏈進行孵化,構建“算力租賃+AI應用”的生態體系,激活西部算力產業活力。鼓勵企業適度超前部署大規模智算算力,提高算力中心自主可控比例。

4.3 以突破為目標,重點攻關核心技術

圍繞算力發展需要,增強企業自主創新能力,持續推進GPU等關鍵產品和技術的研發。推動硬件、基礎軟件、應用軟件等適配協同,進行算力調度技術的應用試驗,形成一批具有自主產權的完整解決方案。加強對外技術交流合作,加深算力產業鏈的溝通協作。

4.4 以應用為牽引,推進算力賦能產業

構建多部門、多行業交叉合作機制,充分發揮算力對工業、農業、交通、能源、金融和教育等行業的賦能價值。在項目引進、企業扶持的過程中,培育算力龍頭企業,協同帶動算力上下游產業的發展,構建完善的算力產業生態鏈。通過“華彩杯”算力大賽等形式,挖掘并培育優質算力應用項目,推動優秀項目案例的復制推廣。

4.5 以安全為保障,筑牢產業安全防線

統籌建設集群級安全防護能力,適當增加算力企業在安全方面的投入,解決好基礎性問題,打造安全可靠的算網能力。鼓勵算力中心進行多點熱備,實現業務無縫切換。引導行業打造安全運維體系,提高運維人員應對突發事件的應急響應水平。

5 結束語

《算力基礎設施高質量發展行動計劃》等國家政策文件的發布,以及GB/T 43331-2023《互聯網數據中心(IDC)技術和分級要求》等國家標準的實施,都將引領我國算力產業高質量發展。我國產業界應針對算力發展過程中遇到的問題不斷加強技術攻關,將算力產業發展走深向實,持續增強我國算力基礎力量,助力我國早日實現網絡強國目標。

猜你喜歡
算力發展
多方求解智能時代算力挑戰
基于網絡5.0的重疊網形態算力網絡
這個第二不一般
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
基于SiteAI算力終端的交通態勢感知系統
邁上十四五發展“新跑道”,打好可持續發展的“未來牌”
從HDMI2.1與HDCP2.3出發,思考8K能否成為超高清發展的第二階段
砥礪奮進 共享發展
改性瀝青的應用與發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合