?

算力度量與算網資源調度思路分析*

2022-10-16 08:39喬楚
通信技術 2022年9期
關鍵詞:算力調度資源

喬楚

(四川通信科研規劃設計有限責任公司,四川 成都 610041)

0 引言

如今,隨著新一輪的科技革命和產業變革深入發展,數字經濟成為重要的社會支柱,快速融入社會民生的方方面面。作為推動社會加速走向數字化的技術支撐,算力作為數字產業中最核心的內容,成為繼水、電、氣之后的又一個人類社會生活的必需要素。依據中國信息通信研究院報告的數據,僅截至2020 年,全球算力總規模已達到429 EFLOPS,年增速達到39%。在社會萬物智聯的高速發展節奏下,未來五年全球算力規模還將以超過50%的速度增長,預估至2025 年整體算力規模將達到3 300 EFLOPS。電子信息業、電信業、軟件和數字技術服務業務、互聯網行業等數字核心產業的市場潛能將進一步得到激發和釋放。

1 算力建模與度量方式

1.1 算力定義范式

從狹義上看,性能是衡量單臺計算設備計算能力水平的指標,業界有一個范式可簡要表示如下(假設在I/O 不為瓶頸的情況下):

從廣義上看,算力則是若干處理器性能的集合,與處理單元數量成正比關系。將各種客觀存在的內外部影響因素統一定義為利用率,那么算力可表示為:

1.2 算力指數框架

上述的算力定義范式只是從計算技術(通信能力)的單一維度對計算能力進行評估定義。如果要梳理算力水平與宏觀數字經濟發展之間的關系,則需要從算力環境、算力規模以及算力應用3 個維度搭建體系化的算力指數框架,如圖1 所示,從而進行綜合評價[1]。

圖1 算力指數框架

1.2.1 算力環境

目前主要通過網絡環境、算力投資兩個維度來進行標準定義。網絡環境主要通過對互聯網省際出口帶寬、5G 覆蓋率等為代表的技術指標加權計算后進行定量分析;算力投資則主要包括軟硬件及服務的投資,其中軟硬件部分涵蓋算力、存力以及運力相關的各類設備。

1.2.2 算力規模

從保障資源利用率的角度出發,按照具體的算力服務場景可分為:基礎算力、智能算力和超算算力?;A算力表示以中央處理器(Central Processing Unit,CPU)為計算單元的計算能力;智能算力是指以圖形處理器(Graphics Processing Unit,GPU)、現場可編程邏輯門陣列(Field-Programmable Gate Array,FPGA)、專用集成電路(Application Specific Integrated Circuit,ASIC)等為代表的,具備人工智能(Artificial Intelligence,AI)訓練和推理學習能力的加速計算單元的計算能力;超算算力則是反映普遍用于科學計算場景的高性能計算集群的計算能力。

1.2.3 算力應用

在應用層面,主要劃分為消費類應用和行業類應用兩個大類,也可近似理解為2C 和2B 兩類。消費類應用水平通過移動互聯網月均流量規模來呈現;行業應用可通過產數規模指標[1]衡量算力在工業、農業、服務業等特定領域的推廣和滲透程度。

1.3 算力度量

算力應用場景存在多樣化和個性化的特征,且隨著所處位置不同(如中心計算、邊緣計算、端側計算等),其部署規模也不盡相同。如果使用單一的計量單位來衡量整個數據中心的算力水平,往往有失偏頗。因此,目前業界正在尋找一種能被廣泛認可的標準化算力度量模型。主流的思路是,首先將總算力按照邏輯運算能力、并行計算能力、神經計算能力的維度分類(分別對應前述基礎算力、智能算力和超算算力);其次按照場景、固定比例系數或者特定的計量單位進行具體的度量測算[2],具體如下文所述。

(1)按照場景方式測算:對不同場景進行差異化分析,對場景中涉及的不同規格的計算單元分類計算,計算單元的算力值與實際算效也最為匹配。盡管此方法的計算結果相對比較客觀,但每種場景均需要進行算力拆解,繁復的服務場景反而會增加算力路由、交易模型的測算復雜度。

(2)按照固定比例系數測算:以建造成本為依據,為3 種計算能力定義固定的比例系數。在這種方式下,無須對每種算力資源進行拆解,簡化了算力路由和交易的復雜度,但比例系數設置如果不合理,會導致算力值帶有場景傾向性,計算單元的算力值與實際算效誤差變大。該方式下算力值可通過如下范式描述:

(3)選擇特定的計量單位:更加簡單地選擇內核數、虛機數、容器數等作為計量單位。按照這種方式計算出來的算力值更加簡單,但顆粒度被進一步放大,計算單元的算力值與實際算效誤差最大。

假設某個算力平臺擁有的邏輯運算單元數量為l,并行計算單元數量為m,神經加速計算單元(超算單元)數量為n,算力平臺的總算力用Γ表示,則該平臺的算力值可描述如下:

因此,算力業務在算力網絡中的算網資源信息Φ算網資源信息可通過某種與算力、存力、算法、路由以及算效相關的數學模型來表示,即:

式中:T為存力;X為算法能力,包括算法類型和復雜度等;P代表算網路由,包含路由協議、協議配置等信息;ψ為算效,用于算力配置策略驗證。

算力網絡可在上述資源信息模型基礎上,引入用戶位置、性能需求等關鍵信息,進行合并計算完成業務畫像后,對外生成面向用戶的算網資源視圖,對內生成算網資源清單和初始配置策略。

2 算力網絡架構與資源調度思路

2.1 算網架構

將分散在各個位置的算力資源信息通過網絡結合起來,形成網絡化的統一供給體系,是算力網絡形成的最大訴求。國際電信聯盟ITU-T 在Y.2501Computing Power Network-Framework and Architecture中,已明確了算力網絡的4 層標準化架構,自下而上總體分為算力網絡資源層、控制層、服務層和編排管理層[3],如圖2 所示。

圖2 算力網絡標準化架構

算力網絡資源層通過主動上報或網絡側主動探測的方式實現算力的統一感知,提供異構算力統一度量模型,為上層算力一切服務提供確定性的基礎保障,其包含各類計算、網絡、存儲資源節點中的基礎設施和服務。

算力網絡控制層通過算力路由的方式收集各節點算力資源信息,經服務層細致處理,進行具體的資源分配和連接調度的執行?,F階段,算力路由包含集中式和分布式兩種實現方案。集中式基于軟件定義網絡/網絡功能虛擬化(Software Defined Networking/Network Function Virtualization,SDN/NFV)的網絡控制器直接實現資源調度,而分布式方案通過互聯網協議(Internet Protocol,IP)的擴展字段攜帶特定算網信息,實現對全局信息的收集。

算力網絡服務層是用戶與算力網絡的交互窗口,其北向面向用戶生成算力資源視圖,南向通過控制層搜集全局算網信息。用戶根據資源視圖選擇最理想的算力方案后,由服務層將用戶需求的感知結果交由編排管理層和控制層,實現資源預占并建立有效連接。

算力網絡編排層貫穿上述3 個基礎層級,為算力網絡提供資源編排、建模、安全以及運營維護管理的服務能力。

2.2 算網服務場景

將離散的算力資源“聚合”起來的最大目的是能夠更加統一地面向用戶提供算力服務。算力網絡時代,用戶對算力服務的調用通過4 種場景可以具體呈現。

2.2.1 資源直接調用場景

該場景下,如圖3 所示,用戶通過算力網絡發布業務需求,并可直接尋找到匹配需求的算力基礎資源節點。算力網絡在用戶與基礎資源之間建立有效的資源鏈接,用戶可直接調用基礎資源。

圖3 用戶直接調用算力資源場景

2.2.2 資源間接調用場景

如圖4 所示,該場景下,用戶并不直接與算力網絡直接交互,而是通過具體的業務平臺實現。業務平臺通過算力網絡發布服務需求,尋找匹配服務需求的算力基礎資源,并建立資源連接。用戶單純通過業務平臺使用相應的業務服務即可。

圖4 用戶間接調用算力資源場景

2.2.3 業務調用場景

如圖5 所示,該場景下業務提供方已事先在算力網絡中某個節點位置完成了業務部署,并通過算力網絡完成業務信息發布。用戶通過算力網絡發起服務需求后,在算力網絡中直接匹配到滿足需求的業務信息,并直接調用相應的業務服務。

圖5 用戶調用業務場景

2.2.4 用戶驅動業務調用場景

還有一個場景可以通過細化上述幾個場景后衍化得到,即用戶驅動業務調用場景,如圖6 所示。

圖6 用戶驅動業務調用場景

該場景下盡管業務需求依然由用戶在算力網絡中發布,并直接尋找到匹配需求的算力基礎資源節點,但用戶自身并不直接負責業務服務提供和部署。用戶將匹配到的節點信息告知相應的(第三方)業務平臺完成相應的部署,并實現服務調用。

2.3 算力感知與編排思路

盡管現階段業界尚未就算力調度與編排形成廣泛認可的統一規范與標準,但通過意圖網絡體系來理解和探索算力感知與編排領域的課題已成為一種比較主流的思路。

意圖網絡最早于2015 年由開放網絡基金會(Open Networking Foundation,ONF)提出[4]。該體系通過意愿獲取、轉譯驗證、下發執行、優化調整以及反饋跟蹤5 個核心內容來閉環解釋意圖網絡關于業務的全生命周期狀態。這與業界對于算力網絡的智能化調度體系的基本構想高度契合。算力網絡借助各類AI 算法介入用戶業務“意圖”的識別,轉譯成為算力網絡環境下的全局或局部網絡策略,并通過底層資源的跟蹤調整及時滿足用戶業務的服務保障要求。如果將意圖網絡的思想代入算力網絡的架構體系,則算力資源調度過程主要包含以下步驟:

(1)需求分析與轉換。算力網絡服務層是面向用戶的窗口。用戶自然語言形態構成的業務需求被獲取后,將首先進行業務要素分解,拆解后的用戶要素被轉換為相應的網絡配置策略(如帶寬、時延、QoS 要求等),經策略可行性驗證通過后形成需求服務方案。

(2)策略下發與執行。需求服務方案生成后,服務層將其同時交付給算力網絡控制層和編排管理層??刂茖訉Ψ桨钢械姆涨鍐卧俅谓鈽?,進一步分解為算力資源策略、網絡資源策略及安全資源策略等。至此,來自用戶單點集中的業務需求被徹底轉化為離散的全局算網配置方案。同時,通過實時跟蹤的資源狀態信息,將當前的計算能力狀況和網絡狀況作為路由信息發布到網絡,控制層不斷更新包含節點、拓撲、路徑等具體資源實時信息的全局算網視圖。編排管理層則將服務方案與全局資源狀態進行匹配和編排,通過綜合考慮算網資源狀況,將計算任務報文按需調度路由到相應的算力節點,并將編排結果(計算任務報文)反饋給控制層具體下發執行,然后將計算任務按需調度路由到相應的算力節點,并根據執行反饋結果進行動態調優[5]。

(3)資源調整與優化。用戶的需求與算網的狀態都是動態變化的變量,其中用戶需求的變動屬于外部變量,算網需要第一時間感知并按照需求預期進行自動優化。而算網資源的運行變化則屬于內部變量,要求算網具備自優化自調整的智能運維能力,內部變量對于用戶而言并沒有直接影響,用戶無須參與調整過程。

如圖7 所示,以用戶遷移變化需求為具體場景,從而更容易理解算網資源調度的過程。工作日用戶大多集中于辦公區域,而節假日則居于生活區域。因此,在工作時段,近辦公區的算網資源需求相對更高,而節假日,近生活區域的算網資源需求變得更加旺盛,如此便形成了相對固定的需求變化規律。算力網絡對于用戶群體遷移習慣的AI 學習,自動形成對應的邊緣算力資源配置策略,完成住宅和辦公區域邊緣算力資源間的有效調度,保證對各類資源的最大利用。這樣的場景還有很多,比如科學計算、云游戲、互聯網內容分發網絡(Content Delivery Network,CDN)等。

圖7 用戶遷移場景算網資源調度

3 算力網絡發展面臨的挑戰

算力網絡是在云和網深度融合的基礎上形成的,以算力為中心的新型信息基礎設施體系。從狹義上來看,算力網絡是匯集云、IP 承載、光傳輸、網絡虛擬化等多個專業云網融合新技術在內的網絡架構,未來還將逐步引入以算網編排、算網調度、算力交易與管理為代表的新一代智能化技術。而廣義上的算力網絡是以算網大腦為編排管理中心實現算網一體,即實現算和網的深度融合、內生一體、服務一體。盡管當前業界已經明確算力網絡目標架構,但要基于現有云網架構實現理想愿景仍然有許多挑戰。

3.1 云網融合程度還有待加深

傳統網絡發展至今,云和網仍相對獨立,云資源與跨域網絡資源架構的實現和發展路徑不同,編排調度、運營優化相對獨立,業務敏捷性和服務效率受到制約,云、網資源分域/跨域管理以及端到端運維尚處于發展階段。

3.2 異構差異性較大,一體化調度和管控困難

云布局、云原生能力、云業務等差異性導致異構/跨云資源的統一調度、編排和安全管理存在挑戰。

3.3 缺乏統一標準和規范

算力網絡的高度智能化愿景涵蓋了算網業務的全生命周期,但現階段業界關于算力的度量、感知、編排與調度尚未形成統一規范,尤其是對于異構算力資源的度量,如何有效屏蔽底層差異化形成跨域跨網的標準化體系,還有待進一步研究。

3.4 算力建模、分級與交易模式還有待驗證

算力度量、建模、分級、交易以及與區塊鏈等新技術的結合仍在探索規劃階段;面向2C、2B、2G 等具體應用場景的差異化服務模式還需要更多的思考和驗證。

3.5 產業協作有待加強,行業應用尚待激發培育

宏觀上看,算力網絡將實現軟件、硬件、安全產業鏈跨界融通,是對現有架構的一次全方位“技術升級”。但當前產業對算力網絡的理解還存在差異,部分觀點認為算力網絡僅是云網融合或6G 中的一種技術形態,還有部分觀點認為算力網絡主要是對互聯網數據中心(Internet Data Center,IDC)、云計算、大數據的布局規劃,強調對算力進行連接的網絡。因此,針對算力網絡加速達成產業共識,對促進產業價值鏈重構升級和進一步成熟有重要意義。

此外,算力網絡生態對產業現有服務和商業模式是一個全新的挑戰,將對產業價值鏈進行重構升級。算網一體帶來的創新服務推動跨產業鏈的生態繁榮,算網一體化的極致體驗需求正在逐步釋放,差異化服務跨服務主體統一運營,各級算力全面盤活,新型服務業態創新將進一步激發。

4 結語

本文以算力定義為起點,針對算力網絡體系架構及其面臨的風險進行了具體分析,提出了合理的算力度量方案以及可行的算力感知與編排思路。

數字經濟的崛起是社會從“工業時代”跨入“算力時代”的旗幟。數據、算力和算法是新時代的關鍵三要素,如果將數據和算法分別看作新生產資料和生產關系,那么算力則代表著新生產力。數據在算力和運力的支撐下,通過算法發揮更大的潛能價值是算力時代的最基本也是最顯著的特征,算力是驅動數字經濟建設發展的新動能。因此,在新時代背景下,對于算力資源的有效盤活、合理調度與高效利用具有非凡意義。

猜你喜歡
算力調度資源
中科曙光:聯合發布全國首個“一體化算力交易調度平臺”
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
算力網絡場景需求及算網融合調度機制探討
基礎教育資源展示
我給資源分分類
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
電力調度自動化中UPS電源的應用探討
計算萬物 算力之下要有堅實的地基
基于強化學習的時間觸發通信調度方法
基于動態窗口的虛擬信道通用調度算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合