?

算力網絡場景需求及算網融合調度機制探討

2022-05-31 07:26莫益軍
信息通信技術 2022年2期
關鍵詞:算力路由調度

莫益軍

華中科技大學計算機科學與技術學院 武漢 430074

引言

近年來隨著大數據治理、智慧城市、智能制造、自動/遠程駕駛、AR/VR/XR導航和區塊鏈共識等新一代信息技術應用的蓬勃發展,新型計算模式層出不窮,算力資源需求日益旺盛,驅動數據中心高速發展。截至2022年初,我國已建成數據中心500萬標準機架,整體算力達到130EFLOPS。受限于算力需求差異、網絡傳輸性能和算力成本質量,國內數據中心的平均利用率僅為55%左右。為降低能耗和算力成本,微軟和臉書選擇在海底或北極建設數據中心,阿里、騰訊、百度和華為等也選擇在云貴等西部地區建設數據中心??紤]到能源就近供給算力的大趨勢,及能源供給分布和算力需求不均衡的現狀,我國“東數西算”戰略通過八大算力樞紐節點和十個數據中心集群,建立一體化大數據中心體系。在此跨地理空間的數據中心集群上提供算力的服務有強管道、強平臺和算力網絡三種模式。前兩種模式的算力協同調度挑戰在于算力資源選擇、底層網絡擁塞調度及服務時延保障。而算力網絡模式基于軟件定義網絡、IPv6+和路由強化等機制,通過弱平臺強網絡實現分布式路由資源協同調度,將顛覆傳統數據中心資源集中調度和邊緣卸載緩存的服務模式。

為促進算力網絡的快速發展,CCSA成立了算網融合技術推進委員會、TC614算力網絡特別工作組、TC3算力網絡標準工作組,對算力網絡應用場景、技術要求、技術方案、控制器、交易平臺、標識解析、編排管理、度量與建模等方面展開研究。國際電信聯盟電信標準分局(ITU-T)和IMT-2030(6G)推進組開展了算力網絡需求、框架與架構等標準化工作。中國聯通算力網絡產業技術聯盟、“東數西算”產業聯盟和寬帶論壇(Broadband Forum,BBF)等聯盟也就算力網絡體系架構、功能模塊、接口定義和部署落地展開研究協作[1]。

學術界對算力網絡的研究可追溯自2013年的B4系統[2],通過路由代理進行Qugga控制器和OpenFlow交換機的連接,完成路由更新,協議報文轉發和接口更新,實現跨數據中心之間的算力服務協作。在此基礎上,學術界提出了覆蓋層任務分解和算力映射方案、網絡底層路由協議擴展方案、跨層的統一計算網絡控制方案。各類方案從不同角度出發,各有優缺點,在網絡開銷、服務延時和服務質量上表現也各不相同。

1 算力網絡概念澄清

算力網絡自2019年在通信業內提出以來,其名詞、定義、內涵和外延并未達成共識。從其內涵范圍自小到大來看,IETF和華為將算力網絡(Computing First Network,CFN1)定義為面向計算與網絡融合的新架構、新協議和新技術,定位于網絡層之上的計算任務動態路由能力,根據業務需求,基于實時的計算資源性能、網絡性能、成本等多維因素,動態、靈活地計算任務調度框架;中國電信將算力網絡(Computing Power Network,CPN)定義為一種根據業務需求,在云、網、邊之間按需分配和靈活調度計算資源、存儲資源以及網絡資源的新型信息基礎設施[3];中國聯通的算力網絡(CFN1/CPN)由云網協同演進而來的服務于算網協同和算網一體化需求的一體化新型網絡架構,包括AI網絡聯接服務、用戶數據算力聯接網絡、城域光網和5G URLLC網絡、算力服務新型網絡設備和超融合設備[4];中國移動的算力網絡(Computing Force Network,CFN2)是以算力為中心、以網絡為根基的網、云、數、智、安、邊、端、鏈(ABCDNETS)等多要素融合的新型信息基礎設施,是泛在的“一點接入、即取即用”的社會級服務[5]。

上述算力網絡概念定義的不同內涵體現了其發展的不同階段,算力網絡的發展將經歷網絡服務算力(Network for Computing)、網絡化算力(Networked Computing)和網絡內生算力(Network Intrinsic Computing)三個階段。網絡服務算力階段以網絡為中心,擴展算力登記簽約、編排服務和尋址路由,實現網絡對算力的泛在化承載;網絡化算力階段是面向協同推理、聯邦學習和區塊共識等位置分散式計算場景,強化算力任務和數據的調度協同,實現網絡與算力的融合共生;網絡內生算力階段是升級網絡設備自身算力,以帶內隨路方式在網絡協議層面透明地支撐算力場景下的資源動態選擇、任務按需調度、數據高效轉發和服務有界保障,實現算網一體化。

本文將以算力網絡前兩階段的需求場景入手,探討算力網絡的路由資源融合調度通用范式和機制,并對算網一體的網絡協議發展方向進行展望。

2 算力網絡場景任務分析

算力網絡中資源與用戶需求是多樣的,具體包括資源節點的多樣性、資源歸屬的多樣性,業務需求的多樣性和算力類型的多樣性。算力網絡利用這些多樣性特征綜合選擇滿足業務需求與成本支出的最佳算力資源與最優算力路徑。

根據算力場景的時延需求,算力網絡應用場景可分為時延非相關場景和時延敏感性場景。時延非相關場景包括后臺加工、離線分析和視頻渲染等場景,對算力資源位置和響應時間無明確需求,可遷移卸載至長距離遠端算力資源上運行;時延敏感性場景包括自動駕駛、遠程醫療、工業互聯網、智慧城市和實時量化交易等場景,對響應時間有明確的上下界要求,需就近選擇與數據生產位置一致的算力資源以滿足其服務質量需求。

根據算力類型的共性特點,算力網絡應用場景可分為檢索查詢類、渲染交互類、深度學習類和區塊共識類四類場景。檢索查詢類場景包括分布式搜索和推薦服務等場景,用戶向集中或分布式資源池請求服務,其算力資源池主要由代數運算或字符運算類算力組成;渲染交互類場景包括遠程駕駛、遠程醫療、云游戲和游戲直播等場景,服務端將圖片視頻推送至離用戶較近的算力資源上進行拼接渲染,其算力資源主要由圖形拼接轉換渲染等浮點類算力組成;深度學習類場景包括視頻分析、目標檢測、目標跟蹤、智能對話和故障診斷場景,AIoT設備或用戶將感知數據和任務卸載到云邊資源池進行訓練和推理,其算力資源主要由卷積激活池化算子等神經網絡類算力組成;區塊共識類場景包括分布式賬本、加密貨幣和智能合約等場景,區塊應用利用分布在全網的算力資源建立不可抵賴的共識機制,其算力資源主要由分布式哈希算力組成。各種算力網絡場景在請求響應模式、數據帶寬需求、數據傳輸方向、參與算力節點和節點組網拓撲等特性上表現迥異,具體差異如表1所示。

表1 四種算力場景算力網絡典型特性差異

探討通用的算網融合調度機制不僅需考慮網絡層面的模式特征,還需考慮其算力網絡工作流水。不失一般性,算力網絡場景應用流程都可抽象為算力發布簽約、算力任務匹配和算力路由調度三個相互依賴的流水。

算力發布簽約:該流水是算力需求方和算力供給方未形成實際業務交互前,算力資源向算力網絡進行注冊并發布其能力和成本,算力用戶根據自身需求與算力資源進行注冊簽約的過程。算網融合調度受限于用戶簽約的算力資源和算力能力。

算力任務匹配:該流水是在算力需求方發起應用請求后,根據場景任務的算力類型需求,從簽約算力資源及其關聯編排資源中匹配資源候選集。

算力路由調度:該流水是在完成算力任務預匹配后,根據任務需求,算力服務資源鏈上的資源狀態和鏈路狀態,實時動態地進行任務分解、任務復制,路由更新和數據轉發,實現算網融合的路由資源調度。

算力發布簽約與算力任務匹配流水是算力網絡運行的前提,本質是進行算力資源和網絡資源的映射解析,直觀來看,可以直接在DNS協議和解析映射機制之上擴展實現相應流程。算力路由調度流水中算力任務執行是在應用層或覆蓋層完成,任務執行過程中的數據傳輸交換有覆蓋層(Overlay)和底層(Underlay)兩類方案。Overlay方案與特定應用相關,數據復制冗余度高,底層鏈路擁塞概率較高。Underlay方案涉及到底層路由協議擴展,需兼顧協議的前后兼容性和普適性。本文以現有協議改動最小為原則,重點探討應用層任務分解分發與Underlay路由優化和報文復制消除相結合的算網融合調度機制。

3 算網融合調度技術現狀

算力網絡目標在于采用云網融合、可編程網絡、算力感知、算力編排和算力路由等技術,提高地域分散的異構算力資源的整體利用率,降低算力運營成本和開銷。

算網融合調度框架方面:ITU-T Y.2501提供了典型的算力網絡系統框架,該框架包括算力網絡資源層、算力網絡控制層、算力網絡服務層和算力網絡編排管理。算力網絡編排和管理負責算力網絡的編排、安全、建模、操作維護管理;算力網絡服務層負責用戶資源需求處理和平臺與資源節點交易;算力網絡控制層負責從資源層收集信息,提供給服務層進行可編程處理,實現資源預留和網絡連接;算力網絡資源層包括算力網絡中的服務器、交換機和路由器等多種資源。各層相互協作,為用戶提供多樣化的服務模式,保證資源的最優化配置。網絡5.0創新聯盟算力網絡工作小組提出了基于DNS的OverLay架構。IETF提出分布式方案架構。中國電信的算力網絡架構分為應用層、算力資源調度平臺層和路由層。該框架以算力資源調度中心擁有全局資源信息為前提,其中應用層完成算力的分解和申請,算力資源調度平臺層完成算力的分配,路由層完成算力轉發。

算網融合路由方面,算力資源節點通過擴展BGP和OSPF等路由協議在路由信息中宣告算力類型和可用量等算力資源信息,其他網絡節點轉發收到的算力資源公告,邊緣網絡節點收到用戶請求后根據算力資源視圖智能選擇算力資源節點,計算算力路由,其路由要求滿足帶寬、路徑和時延等確定性需求。

學術界對算力網絡的研究可追溯自2013年的B4系統[5],為提高跨數據中心之間協作的鏈路利用率,B4系統在集群間引入BGP/ISIS協議,通過路由代理進行Qugga控制器和OpenFlow交換機的連接,完成路由更新,協議報文轉發和接口更新,將應用流拆分到多條路徑上,以均衡應用負載和應用優先級。在此基礎上,DECO[6]和Jupiter[7]等從覆蓋層角度對算力任務圖進行分解,分別采用HEFT DAG、Pegasus、CIRCE和WAVE等調度策略將任務分解映射到相應算力網元,覆蓋層采用BGP或OSPF選路,若遇到擁塞重新進行選路。針對覆蓋層調度存在的變化快、應用相關、擴展性差和容易擁塞等問題,Qroute[8]、OpenPATH[9]和SRUF[10]從網絡底層出發,對BGP、OSPF、VxLAN和SRv6進行擴展,借助心跳機制來獲取網絡底層的狀態變化,并引入時延約束和優化調度策略以提高算力網絡效率。為進一步提高算力服務質量,UCNC[11]犧牲部分網絡性能,增加冗余服務資源,提出面向單播和多播流聯合優化的統一計算網絡控制機制,針對任意服務鏈,采用統一算力網絡控制策略,確定路由和處理節點位置,并引入報文復制、路由策略和虛擬排隊機制將任務和數據分發到特定冗余算力資源。

4 路由資源融合調度機制

鑒于上述算力網絡需求和發展現狀分析,本文算力網絡路由資源融合調度機制以對現有協議改動最小為原則,采用以網絡為中心任務觸發的融合方式,在應用層由特定算力任務完成算力資源發布和算力任務預配,在Underlay擴展BGP和SRv6路由協議,優化DetNet路由協議和報文復制消除機制,實現高效的算網融合調度機制。在此算力網絡路由資源融合調度框架下,本節重點探討算力資源發布、算力任務預配和算網融合調度的協議流程。

1)算力資源發布

由表1所示,各類算力網絡場景所需算力資源類型相去甚遠,相應算力資源運行特性也有較大差異。算力資源入網向算力解析服務器登記時,借鑒DNS解析映射機制,將算力資源層次抽象后按域名組織規則和URI規則進行編碼、注冊和管理。算力資源抽象層次樹,從根結點向下逐層為算力處理器架構、算力資源運算類型、算力預算模型和算力算子操作等,資源抽象樹的葉子為具體的實例化名稱。入網算力資源可以是已加載具體算力模型的資源,也可以是未運行任何實例的彈性空載資源,相應的資源抽象樹缺乏相應的層次編碼。

算力解析服務器登記包括算力資源簇記錄、算力資源交換記錄、算力資源服務等級記錄、算力資源解析服務器記錄、算力資源反向記錄和算力資源實例記錄等。其中算力資源簇記錄指定了多個算力資源構建成一個簇,簇內算力資源共同完成任務或進行算力資源負載均衡,反映了算力集群和算力組合場景;算力資源交換記錄指定了算力任務執行過程中,用于接力完成任務,且與其進行數據交換的算力資源,反映了算力任務卸載分解場景;算力資源服務等級記錄指定了在同類算力資源中提供算力服務的優先級及服務狀態;算力資源解析服務器記錄指定了參與特定算力資源解析的服務器,避免算力資源解析出現單點故障;算力資源方向記錄則是指定了特定IP地址對應的多個算力資源記錄,目的是為在數據面進行流表轉發控制時能快速解析所需算力資源類型;算力資源實例記錄則記錄了資源實例名稱與特定IP地址的對應關系,用于算力資源解析和尋址。

算力資源發布后,必須與用戶簽約后才可提供相關的算力服務。用戶可與任意抽象等級的一個或多個算力資源簽約,或按某種規則與算力網絡簽約以動態獲取相關算力資源。

2)算力任務預配

算力任務預配是根據算力資源發布狀態和底層網絡拓撲狀態成本,在用戶發起算力任務時,按算力資源標識最長后綴匹配機制,從算力解析服務器搜索相應可用算力資源列表。然后根據算力資源列表與用戶間的網絡拓撲、距離跳數和算力服務優先級進行綜合排序,生成相應算力任務的多條預配資源鏈表。算網融合調度以此預分配資源鏈表為基礎進行調度。網絡拓撲和算力資源發生變化時,需及時更新算力解析服務器記錄,避免出現預匹配資源鏈表失效的情況。

3)算網融合調度

用戶發起算力任務完成預配后,算力網絡將根據用戶實際需求實時動態進行任務調度分發和數據交換轉發。本文以現有協議改動最小為原則,在應用層進行任務分解和轉發,利用到遠端數據中心路徑上的邊、網和云設備,在底層進行報文復制消除和路由優化,以實現數據算力位置匹配的就近調度,降低算力網絡資源開銷和算力任務時延,保證算力服務質量。

為覆蓋更多的算網融合調度場景,本文以遠程駕駛為例進行探討,尤其是遠程駕駛既涉及到遠程感知視頻的拼接重建和渲染展示,又涉及到在端邊設備上的目標識別和跟蹤,對請求帶寬、響應帶寬和交換帶寬都有較高要求。

如圖遠程駕駛算力網絡示例中步驟1、2所示,駕駛用戶對車輛進行控制時,駕駛用戶和受控車輛向算力解析服務器發起算力資源請求,算力解析服務器通過路由器A返回渲染重建算力資源列表,通過路由器A、D反饋目標識別跟蹤算力資源列表。

駕駛用戶查看車輛現場畫面時,如步驟3、4所示,根據反饋的渲染重建算力資源列表,發起帶算力任務ID的視頻解碼重建渲染任務。路由器A收到渲染任務ID和資源列表后,將任務轉發至就近邊緣渲染算力。邊緣渲染算力同意接受渲染任務后,向駕駛用戶返回確認請求。

駕駛用戶以邊緣渲染算力為代理向受控車輛請求現場感知數據,如步驟5、6、7所示,邊緣渲染代理發起帶算力數據ID的請求,路由器A收到數據ID和受控車輛地址后,采用最短路徑路由,通過路由器D尋址轉發數據請求,從受控車輛拉取感知視頻流,完成邊緣渲染任務,并將渲染結果推送至駕駛用戶。

若邊緣渲染算力負載過重,算力應用發起帶渲染任務ID的邊緣渲染算力替換請求,路由器A根據渲染任務ID和資源列表,向任務轉發至路徑上候選邊緣渲染算力,由中心渲染算力替代邊緣渲染算力完成后續的數據拉取和渲染任務。

當底層網絡感知到路由器A、路由D或A~D間鏈路發生負載擁塞時,路由器A和路由器D采用擴展BGP協議重新選路為A-B-C-D。對于更加復雜跨多自治域路由重選,可采用SRv6路由協議,在此不再展開。

在此過程中,駕駛用戶還需接受駕駛現場的行人、車輛和標識等實時分析事件。與重建渲染任務類似,駕駛用戶需發起帶目標識別跟蹤任務ID的深度學習任務請求。雖然網絡中存在A、B、C三個深度學習算力,但因重建渲染任務和目標識別跟蹤任務請求的數據ID相同,存在多任務共流需求,路由器D在任務ID和數據ID后,由路由器D進行數據復制,并將其轉交給深度學習算力C進行目標識別跟蹤。

5 總結展望

本文對算力網絡場景需求特性進行了分析,并以簡單的遠程駕駛任務為例,討論了算網融合調度的應用層任務分解和底層網絡資源融合調度方案,尤其是舉例說明了算力過載和網絡擁塞條件下的算網融合調度機制,以及共流多算力任務的資源調度和報文復制消除機制。對于更加普適的統一算網調度機制和算網融合路由協議字段擴展還需更進一步討論??傮w來說,應用層解決算力任務分解分發問題,底層網絡解決路由優化和報文復制消除問題,是最有效且兼容性擴展性最好的算網融合統一調度機制。

猜你喜歡
算力路由調度
中科曙光:聯合發布全國首個“一體化算力交易調度平臺”
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
基于智慧高速的應急指揮調度系統
杭州“算力小鎮”
基于增益調度與光滑切換的傾轉旋翼機最優控制
數據通信中路由策略的匹配模式
計算萬物 算力之下要有堅實的地基
基于強化學習的時間觸發通信調度方法
OSPF外部路由引起的環路問題
基于動態窗口的虛擬信道通用調度算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合