?

面向算網一體化演進的算力網絡技術

2021-11-11 06:03段曉東姚惠娟付月霞陸璐孫滔
電信科學 2021年10期
關鍵詞:算力路由調度

段曉東,姚惠娟,付月霞,陸璐,孫滔

(中國移動通信有限公司研究院,北京 100053)

1 引言

隨著5G的商用規模部署,工業互聯網、車聯網、虛擬現實(VR)/增強現實(AR)等垂直領域蓬勃發展。Machina Research報告顯示:2025年,全球網聯設備總數將超過270億臺,聯網設備指數級增長,設備呈現多樣性趨勢,物聯網(internet of things,IoT)傳感器、攝像機等設備的應用會帶來多樣化的數據。海量數據的傳輸、異構數據的分析和存儲對傳統網絡和云計算提出了巨大挑戰,使云計算和網絡面臨“傳不暢、算不動、存不下”的局面,驅動計算從云端下移到接近數據源的邊緣側,形成網絡中分散的算力資源。Gartner預測:2025年,超過75%的數據需要分流到網絡邊緣側,這對網絡靈活調度、服務質量(quality of service,QoS)等提出了更高的要求。因此,網絡在實現分散節點互聯的同時,還需要具備網絡和算力協同調度的能力,通過最優路徑將業務動態地調度到最優的算力節點進行處理。

算力是對數據處理能力及服務的統稱,由多種芯片、部件和封裝形成的上層服務組成。算力呈現多樣性,是云計算、邊緣計算、大數據和人工智能等技術的發展基石,是構成信息社會的“心臟”。云計算、邊緣計算以及終端芯片工藝制程的發展必然驅動整個社會的算力分配更加分散和泛在化,即用戶周圍不同距離會散布不同規模的算力。如何高效利用這些算力,保證云邊端算力的無縫協同,同時借助網絡使數據與算力得到快速連接、處理,使算力像電力、熱力一樣成為基礎資源,用戶可以隨用隨取而不必關心它的產生與位置。為了讓用戶享受隨時隨地的算力服務,需要重構網絡,形成繼水網、電網之后國家新型基礎設施,真正把“算力”變為可流動的生產力資源,為千行百業提供像“自來水”一樣的計算服務。

為助力我國數據中心實現差異化、互補化、協同化、規?;l展,從2020年4月到2021年7月,國家連續發布系列政策,“東數西算”新型數據中心頂層設計日漸清晰。2020年3月,國家發展和改革委員會、工業和信息化部印發了《關于組織實施2020年新型基礎設施建設工程(寬帶網絡和5G領域)的通知》,同年4月首次對“新基建”的具體含義進行了闡述,提出建設以數據中心、智能計算中心為代表的算力基礎設施等,吸引地方積極布局計算產業,這也是“算力基礎設施”這一概念在國家層面首次被提出。2021年5月26日,國家發展和改革委員會、中共中央網絡安全和信息化委員會辦公室、工業和信息化部、國家能源局聯合印發了《全國一體化大數據中心協同創新體系算力樞紐實施方案》,明確提出圍繞國家重大區域發展策略,建設全國一體化算力網絡國家樞紐節點,并在國家樞紐節點之間進一步打通網絡傳輸通道,加快實施“東數西算”工程,提升跨區域算力調度水平,構建國家算力網絡體系,標志著“算力網絡”正式納入國家新型基礎設施發展建設體系。同年7月,工業和信息化部發布了《新型數據中心發展三年行動計劃(2021—2023年)》,進一步明確了數據中心建設計劃,正式啟動了“東數西算”工程。

面向計算網絡融合的演進需求,業界也開展了許多研究與探索工作,目前具體技術和技術路線不統一,仍需要大量攻關和驗證??梢苑譃榫唧w的“算力網絡”技術和抽象的“算力網絡”方向兩類。具體的“算力網絡”技術研究包括算力感知網絡、計算優先網絡等,是算力和網絡深度融合的技術研究方向,目前產業界、學術界及標準領域對“算力網絡”的關注度持續升溫。抽象的“算力網絡”方向是把算力網絡作為長期演進方向,但是沒有具體如何演進的考慮和論述。

2020年第8次網絡5.0全會上,中國信息通信研究院聯合三大運營商、華為、中興通訊、中國科學院成立了網絡5.0創新聯盟算力網絡特設組,就目前提出的算網融合趨勢下不同技術路線展開研究和探索[9],包括算力網絡[10]和算力感知網絡[7,11-12]等,旨在達成算力網絡研究共識,推動產業發展[13];此外,在IMT-2030(6G)網絡工作組也成立了算力網絡研究組,研究在6G網絡中計算、網絡融合對于未來網絡架構的影響和關鍵使能技術。此外,IRTF成立了在網計算研究組(COINRG)[14-17],在網計算指網絡設備的功能不再是簡單的轉發,而是“轉發+計算”,計算服務不再處于網絡邊緣,而是嵌入網絡設備中。該工作組主要面向可編程網絡設備內生功能的場景、潛在有益點展開研究,其中內生功能包括在網計算、在網存儲、在網管理和在網控制等,是計算、網絡更深層次融合的下一發展階段,也吸引了許多研究人員的關注。

2 算力網絡技術探索

2.1 算力網絡階段發展

算力網絡實現算網共促,將“算力+網絡”作為一體化的生產力統一供給、發展,有利于信息服務新模式構建。以網強算,借助基礎網絡系統化優勢改變算力單點薄弱現狀,有利于國家整體算力布局;以算促網,將算力調度的高需求轉化為網絡超寬帶高智能發展的動力,有利于網絡持續領先發展。

算力網絡的演進從目前的算網分治、逐步走向算網協同,最終發展為算網一體化?;谀壳斑吘売嬎愕陌l展,算力網絡將首先實現多個邊緣節點算力資源的合理分配和調度,滿足用戶的業務體驗,以及提高資源的利用率。隨著云邊算力趨向泛在化,網絡更加扁平化、靈活化、服務化,算力網絡走向算網協同階段,通過對業務、算力資源和網絡資源的協同感知,將業務按需調度到合適的節點,實現算網資源統一編排、統一運維、統一優化,最終實現算網共彈共縮。隨著云邊端三級算力全泛在、空天地一體網絡全互聯,網絡資源和計算資源將實現全面融合新形態,走向算網一體階段。算網共進,提供新服務,打造新模式,培育新業態,真正解決算網融合問題,實現在網計算,算網一體共生。算力網絡階段發展路線如圖1所示。

圖1 算力網絡階段發展路線

2.2 算力網絡技術體系

算力網絡需要從架構、協議、度量等方面協同演進,構建面向算網一體化的新型基礎網絡,如圖2所示。在架構層面上看,面對邊緣計算、異構計算、人工智能等新業務,未來算網融合架構需要在基礎設施即服務(IaaS)資源層編排的基礎上,研究向平臺即服務(PaaS)、軟件即服務(SaaS)、網絡即服務(NaaS)等一系列上層算法/函數/能力的編排演進,并協同管理、控制和數據面,進一步探索實現編排系統與網絡調度系統的協作,實現一切即服務(XaaS)能力按需靈活部署。在協議層面上看,傳統網絡優化路徑僅實現信息在節點之間傳輸的服務等級協議(service-level agreement,SLA)并未考慮節點內部算力的負載。未來算網融合的網絡需要感知內生算力的資源負載和XaaS性能,并綜合考慮網絡和算力兩個維度的性能指標,從而進行路徑和目標服務階段的聯合優化。另外,還需要考慮和數據面可編程技術的結合,如利用SRv6可編程性實現算網信息協同,以實現控制面和數據面的多維度創新。從度量方面看,網絡體系的建模已經很成熟,但算力體系還需要綜合考慮異構硬件、多樣化算法以及業務算力需求,進一步深入研究形成算力的度量衡和建模體系。算力網絡需要依托統一的算力度量平衡體系以及能力模板,為算力感知和通告、算力開放應用模型(OAM)和算力運維管理等功能提供標準度量準則。

圖2 算力感知技術架構思路

2.3 算力感知技術架構

為了實現泛在計算和服務的感知、互聯和協同調度,算力感知架構體系從邏輯功能上可分為算力服務層、算力資源層、算力路由層和網絡資源層以及算網管理編排層,如圖3所示。

圖3 算力感知技術架構

? 算力服務層:承載計算的各類服務及應用,并可以將用戶對業務SLA的請求(包括算力請求等)參數傳遞給算力路由層。

? 算力資源層:利用現有的計算基礎設施提供算力資源。計算基礎設施包括單核中央處理器(CPU)、多核CPU,以及CPU+圖形處理器(GPU)+現場可編程門陣列(FPGA)等多種計算能力的組合。為滿足邊緣計算領域多樣性計算需求,該層能夠提供算力模型、算力應用程序編程接口(API)、算網資源標識等功能。

? 算力路由層:是算力感知網絡的核心?;诔橄蠛蟮乃憔W資源,并綜合考慮網絡狀況和計算資源狀況,該層將業務靈活按需調度到不同的計算資源節點中。

? 網絡資源層:利用現有的網絡基礎設施為網絡中的各個角落提供無處不在的網絡連接,網絡基礎設施包括接入網、城域網和骨干網。

? 算網管理編排層:完成算力運營、算力服務編排,以及對算力資源和網絡資源的管理。該層的具體工作包括對算力資源的感知、度量以及OAM管理等,實現對終端用戶的算網運營以及對算力路由層和網絡資源層的管理。

其中,算力資源層和網絡資源層是算力感知網絡的基礎設施層,算網管理層和算力路由層是實現算力感知功能體系的兩大核心功能模塊?;谒x的五大功能模塊,實現了對算網資源的感知、控制和調度。

總之,作為計算網絡深度融合的新型網絡,以無所不在的網絡連接為基礎,基于高度分布式的計算節點,通過服務的自動化部署、最優路由和負載均衡,構建算力感知的全新網絡基礎設施,真正實現網絡無所不達、算力無處不在、智能無所不及。海量應用、海量功能函數、海量計算資源則構成一個開放的生態。其中,海量的應用能夠按需、實時調用不同的計算資源,提高計算資源利用效率,最終實現用戶體驗最優化、計算資源利用率最優化、網絡效率最優化。

2.4 算力度量與標識體系

算力網絡需要構建統一的度量和標識體系,通過對異構計算類型進行統一的抽象描述,形成算力建模模板,為算力路由、算力設備管理、算力計費等提供標準的算力度量規則。算力度量體系包括對異構硬件設備、不同算法以及用戶算力需求3方面度量。首先,對異構硬件設備算力度量,從而有效地展示設備對外提供計算服務的能力;計算過程受不同算法的影響,因此,可以對不同算法進行算力度量的研究,獲得不同算法運行時所需算力的度量;用戶所需的不同服務會產生不同的算力需求,通過構建用戶算力需求度量體系,可以有效感知用戶的算力需求?;诮y一度量體系,算力建模體系包括對異構的物理資源建模,以及從計算、通信、存儲等方面對資源性能建模,構建統一的資源性能指標,以及通過構建資源性能指標與服務能力的映射完成對服務能力的建模,實現對外提供統一的算力服務能力模型。

此外,算力網絡需要構建統一的算力標識體系,支持對全網算力節點進行統一的算力標識管理與分配,且算力標識應當是全局唯一的,用于標識注冊后的算力節點。此外,算力標識應當是可驗證的,支持算力調度、算力交易等。

2.5 算力路由技術

基于對網絡、計算、存儲等多維資源、服務的狀態感知,算力路由技術支持將算力信息注入路由表,生成“網絡+計算”的新型路由表;基于用戶的業務請求,通過網絡、計算聯合路徑計算,按需、動態生成業務調度策略,并實現基于IPv6 / SRv6[18-20]等協議的可編程算力路由轉發。算力路由技術示意圖如圖4所示。

圖4 算力路由技術示意圖

算力路由節點需要在傳統的路由表中,基于接收的算力狀態信息,在網絡信息表基礎上維護本地算力信息表。路由控制面基于給定的路徑Metric值計算方式生成算力感知的新型路由表,相比于傳統的路由信息表,算力感知的路由表中新增了“算力參數信息”和“網絡、計算總參數信息”。

基于對應用需求的感知,結合實時的網絡、計算狀態信息,算力路由調度支持將應用請求沿最優路徑調度至最優節點?;凇奥窂?節點”聯合計算和優化,從而實現可以感知業務需求的、綜合考慮“路徑+節點”狀態的新型路徑計算,滿足業務需求。此外,結合IPv6/SRv6/VPN[21-22]等多種協議構建支持網絡可編程、靈活可擴展的新型數據面,通過在入口網關處完成業務需求和轉發路徑的匹配與映射,實現基于SRv6的顯式路徑轉發。

2.6 算網協同管理技術探索

基于全網算力節點基于算力度量和建模體系形成的節點算力信息,算力算網協同管理技術需要支持對算力的統一注冊以及策略配置?;谒懔濣c信息,構建統一的全網算力服務拓撲,包括算力服務標識信息、部署位置信息等,實現對全網算力服務的統一管理。

此外,根據服務所需的算力資源信息,需要結合全網算力的部署狀態,動態、按需編排與部署服務。更進一步,可以將一個服務任務分解為多個子任務,各子任務可以分別在不同的算力節點上進行計算,實現各計算節點的 協同。

算力網絡支持基于AI的算網流量預測,通過獲取未來時間的流量分布、業務分布情況,進行算網資源的預配置、算網應用的預部署,支持對于算力和網絡的聯合調度和全局優化。

2.7 在網計算超融合技術

在網計算技術的核心是將部分計算任務從主機側遷移至網絡側,在交換機、路由器、智能網卡、DPU處理卡等網絡設備完成計算加速,從而提升網絡吞吐量,降低網絡時延,減小總體能耗。

傳統的網絡架構主要完成分組的高速轉發,將計算任務和計算結果在計算節點間高速傳輸。在數據中心網絡中,大規模分布式計算和存儲的需求日漸強烈,網絡傳輸日漸成為數據中心中分布式集群規模增大和能效提升的瓶頸。近年來,基于RDMA(remote direct memory access)協議的方案實現了數據中心網絡的大帶寬、低時延和無損,使得存儲和計算資源池化,一定程度解決了數據中心網絡傳輸的瓶頸。

在此基礎上,具有較強算力的新型異構網絡設備,如可編程交換機、智能網卡和DPU處理卡等網絡設備可以協同完成諸如分布式機器學習結果聚合等輕量級計算任務,從而降低數據中心網絡內部的網絡流量。另一方面,由于計算任務在網絡中完成,不必再送往端側進行處理,可以降低計算任務和計算結果的傳輸跳數,大幅降低整體任務處理時延。

3 算力網絡部署方案

算力網絡的部署應用需要一個分階段演進和更新迭代的周期,初期可以通過集中式方案進行算力網絡的概念驗證,并適時在小規模網絡場景引入分布式方案,實現集中式與分布式協同部署方案。待分布式算力路由協議成熟穩定的中后期階段,實現分布式方案的規模部署。

3.1 集中式算力網絡部署方案

在算力網絡的集中式部署方案中,算網編排管理中心基于算力和網絡的全局資源視圖,根據網絡部署狀況,選擇管理面和控制面實現算力網絡協同調度。算力網絡集中式部署方案如圖5所示,網絡管理向算力編排器通告網絡信息,由算網編排調度中心進行統一的算網協同調度,生成調度策略,發送給網絡控制器,進一步生成路徑轉發表。需要網絡控制器收集網絡信息,將網絡信息上報至算網編排器,同時接收來自算網編排器的網絡編排策略,算網編排器負責收集算力信息,接收來自控制器的網絡信息進行算網聯合編排,同時支持將編排策略下發至控制器,算網編排器負責業務調度。算力編排器通過網絡管理平臺向算網控制器進行算力信息通告,算力編排器向網絡控制器算力信息通告,由網絡控制器進行統一的算網協同調度,生成調度策略,進一步路徑轉發表。

圖5 算力網絡集中式部署方案

3.2 集中式與分布式協同部署方案

集中式和分布式協同的算力網絡部署方案如圖6所示,算網管理編排層維護全局靜態算力和網絡拓撲信息, 算力資源和網絡資源實時狀態信息由算力路由層節點維護,在算力路由節點實現算網協同調度。

圖6 集中和分布式協同的算力網絡部署方案

3.3 分布式算力網絡部署方案

分布式算力網絡部署方案如圖7所示,算網管理編排層維護全局靜態的算力、服務和網絡拓撲信息,并同步給各入口算力路由節點,算力路由節點維護算力服務的拓撲信息以及算力資源和網絡的資源實時狀態信息,通過分布式算力路由節點進行算網協同調度。

圖7 分布式算力網絡部署方案

4 算力網絡的價值

算力網絡是運營商“云算網融合”和“網絡轉型”的強力助推劑,助力運營商打破“管道化”困境。當前網絡只作為信息傳輸載體,網絡價值單一,導致運營商網絡被“管道化”?;谶\營商天然的“大連接”能力,算力網絡利用運營商 “重計算資產”和“網絡云化”的優勢,提供 “優質連接+優質計算”的融合服務,賦能未來網絡升級;此外,算力網絡可統一調度未來社會中泛在的多樣化算力,以統一服務的方式,高效、靈活、按需提供給用戶,助力構建更開放、更多元化、更高價值的運營商網絡。

算力網絡提供 “網絡+算力”變現的新模式,構建開放共贏的算力生態。作為一個開放的基礎設施,算力網絡使能海量的應用、服務和計算資源。短期來看,有助于運營商邊緣計算生態的構建和發展,通過按需、靈活、高效聯合調度網絡資源和算力資源,保障用戶業務體驗,助力“網絡+算力”變現;中遠期來看,未來網絡設備將內生算力,真正實現“轉發即計算”,從根本上顛覆現有的計算及網絡模式;此外,通過引入區塊鏈等去中心化技術,使能全新的“網絡+算力”交易模式,賦能算力生態的共繁榮與共贏。

5 結束語

算力網絡需要網絡域、計算域協同創新,是一系列網絡新技術的集成融合和創新應用。已經被納入6G和下一代互聯網關鍵技術之一,是網絡與計算融合發展的終極目標,是實現網絡智能內生的必由之路。需要業界聯合打造算力網絡技術體系,實現網絡無所不達,算力無處不在,智能無所不及,推動千行百業數智化轉型。

猜你喜歡
算力路由調度
衛星通信在算力網絡中的應用研究
算力網絡中基于算力標識的算力服務需求匹配
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
基于SiteAI算力終端的交通態勢感知系統
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
基于強化學習的時間觸發通信調度方法
一種基于負載均衡的Kubernetes調度改進算法
虛擬機實時遷移調度算法
探究路由與環路的問題
基于預期延遲值的擴散轉發路由算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合