?

算力網絡調度的集中式方案研究與實踐

2023-01-27 11:50崔占偉
廣東通信技術 2022年12期
關鍵詞:集中式算力路由

[崔占偉]

1 引言

算力,可稱為計算能力,即處理數據的能力。從概念上講,數據和算力早在信息技術產生后、數字經濟出現之前就已經存在。隨著5G、人工智能、物聯網、區塊鏈等技術的發展,智能化、數字化成為未來經濟的主流,算力正在成為像水力、電力一樣的生產力要素。

隨著數字時代的到來,算力作為重要生產力,成為支撐數字經濟、數字社會和數字政府發展的核心基礎。根據2022 中國算力大會發布的數據顯示,算力作為數字經濟時代新的生產力正迅速發展。截至2021 年底,我國在用數據中心機架總規模超過520 萬標準機架,平均上架率超過55%。在用數據中心服務器規模1 900 萬臺,存儲容量達到800EB(1EB=1024PB)。算力總規模超過140EFlops,近五年年均增速超過30%,算力規模排名全球第二。

算力網絡是一種利用網絡控制面傳遞算力等資源信息,并以此為基礎實現多方、異構的計算、存儲、網絡等資源之間的信息關聯與高頻交易的技術體系,以滿足新興業務提出的“隨時、隨地、隨需”的多樣化需求,從而解決不同類型云計算節點規模建設后的算力分配與資源共享需求難題。

2 算力網絡調度功能框架

2.1 算力網絡調度功能框架

算力國際標準ITU-T Y.2501 中提出將算力網絡功能架構分成4 大模塊:算力網絡資源層、算力網絡控制層、算力網絡服務層和算力網絡編排管理層,如圖1 所示。

圖1 算力網絡總體功能架構圖

其中服務提供層主要實現面向用戶的服務、原子功能能力開放;網絡控制層主要通過網絡控制平面實現計算和網絡多維度資源融合的路由;算力網絡資源層主要提供算力資源、存儲資源和網絡轉發資源;并結合網絡中計算處理能力和網絡轉發能力的實際情況,實現各類計算、存儲資源的傳遞和流動;算力管理編排層主要解決異構算力資源、服務/功能資源的注冊、建模、納管、編排、安全等問題。

2.2 算力網絡調度模塊劃分

(1)算力網絡資源層:包括算力資源和網絡資源。算力資源是滿足新興業務的多樣性計算需求,通過從單核CPU 到多核CPU,到CPU+GPU+FPGA 等多種算力組合,在網絡中提供泛在異構計算資源。網絡資源時提供信息傳輸的網絡基礎設施,包括接入網、城域網和骨干網。

(2)算力網絡控制層:基于抽象后的算力網絡計算資源采集和發現,實現對算力節點的資源信息感知;另一方面,通過在用戶請求中攜帶業務需求,實現對用戶業務需求的感知。綜合考慮用戶業務請求、網絡信息和算力資源信息,將業務靈活按需調度到不同的算力節點中,同時將計算結果發布到算力服務層。

(3)算力網絡服務層:承載算力的各類能力及應用,并將用戶對業務SLA 的請求包括算力請求等參數傳遞給算力網絡控制層。

(4)算力網絡編排管理層:實現對算力服務的運營與編排管理、對算力路由的管理、對算力資源的管理以及對于網絡資源的管理,其中算力資源管理包括基于統一的算力度量體系,完成對算力資源的統一抽象描述,進而實現對算力資源的度量與建模、注冊和OAM 管理等功能;以支持網絡對算力資源的可感知、可度量、可管理和可控制。

3 算力網絡調度總體實現方案分析

算力網絡是通過網絡控制面分發服務節點的算力、存儲、算法等資源信息,并結合網絡信息和用戶需求,提供最佳的計算、存儲、網絡等資源的分發、關聯、交易與調配,從而實現整網資源的最優化配置和使用的新型網絡。

3.1 算力網絡調度的技術特征

現有網絡架構采用以應用層為主、基于DNS 的尋址,由于沒有考慮網絡狀態以及目的節點計算能力的變化,因此其綜合性能在某些情況下比較差。算力網絡面向計算類業務,根據業務的需求,結合當前網絡中實時的網絡狀況和可服務的計算資源的計算狀況,通過算力網絡靈活匹配、動態調度,將終端的計算任務路由到合適的目標計算節點,以支撐業務的計算需求,保證業務的用戶體驗。

綜上,算力網絡的技術特征如下。

(1)算力網絡路由技術:基于抽象后的計算資源發現,綜合考慮網絡狀況和計算資源狀況,將業務靈活按需調度到不同的計算資源節點中。具體功能主要包括算力標識、算力狀態網絡同步、算力路由控制、算力路由尋址、算力路由轉發等??砂惺剿懔β酚杉夹g方案和分布式算力路由技術等方案;

(2)面向服務/功能/算力的接口:定義算力網絡與服務/功能/算力間的通用接口,用于描述計算狀態,與應用無關,語義不感知,使得算力網絡與千變萬化的應用創新解耦,保持自己的穩定。

算力網絡的部署可以基于overlay 技術疊加在現有的傳統網絡之上,也可以在新建的局部網絡中獨立部署。算力網絡的功能模塊可以基于通用服務器進行實現,也可以基于專用網絡設備進行實現。

3.2 算力調度編排

算力網絡編排是針對多樣化、定制化的算網融合服務需求,基于算力和網絡的原子能力進行靈活組合、一體編排,設計產品服務模型,并以模板的形式固化所需的資源、服務、策略及配置,實現流程、模型等因子的通用化、標準化,實現算網業務統一編排、部署和保障。

面向上層的能力調度主要包含網絡編排和服務編排兩個方面。

3.2.1 網絡編排

網絡編排主要是指,對底層的網絡服務編排能力進行硬件資源的抽象和能力的建模,并通過服務編排來實現網絡控制。我們提出基于SDN 的寬帶接入(SEBA)容器化架構,以實現SDN 網絡訪問。SEBA 的核心組件主要包括開放網絡操作系統(ONOS)、Kafka、VOLTHA、XOS。

①ONOS:實現SDN 網絡操作系統,對網絡服務編排實現統一的資源調度和管理。

② Kafka:實現REST 的消息隊列管理,并通過上層的服務能力對底層硬件的訪問請求消息進行統一管理。

③VOLTHA:實現底層網絡接入設備和轉發設備的硬件資源抽象,從而使用和訪問上層的網絡功能。

④ XOS:實現網絡功能虛擬化和服務化,并可以基于SDN 控制器的可編程能力實現網絡控制和功能軟件定義能力。

3.2.2 服務編排

服務編排可以實現對PaaS 和軟件即服務(SaaS)能力的容器化調度。由于云原生具有服務化和微服務化的能力,因此在實現算力調度的過程中,基于不同的應用場景,我們提出了3 個方面的服務能力。

①計算能力集:集成目前云原生統一的計算型能力庫,包括 Spark、Hadoop、Hive、Flink 等。

② 數據庫:采用傳統的數據庫服務能力,為上層的應用和業務場景提供一鍵部署式的云原生數據庫,包括Mysql、MangoDB 等。

③人工智能:包括面向人工智能場景的推理和訓練,以及對硬件加速有特定需求的算力調度能力。

這些服務能力統一由Kubernetes 來實現編排。通過Kubernetes 的調度擴展接口和平臺內部調度器對接,從而能夠實現PaaS 和SaaS 服務的容器化調度。

通過Knative 來完成統一服務能力的封裝和打包,通過Knative 的API 網關提供統一的網絡和算力調度接口,并通過統一的門戶對外開放,開發者可以根據網絡和算力調度能力進行網絡編程。這樣可以進一步融合底層網絡和算力,實現基于可編程網絡的算力調度。同時,用戶也可以更加關注上層業務邏輯和業務流程。

4 算力網絡調度的集中式方案

算力網絡調度的技術實現方案可以分為集中式方案、分布式方案和混合式方案,面向不同的業務場景,需綜合考慮業務需求、技術特性,合理選擇適宜的算力調度方案。

集中式包括基于SDN/NFV 的算網編排管控以及基于域名解析機制的編排管控;集中式技術方案基于中心化管理編排系統進行狀態同步、同步代價相對較小,可適用于較大規模網絡。

分布式技術方案基于分布式路由協議進行狀態同步,需要對現有網絡設備升級,因此對網絡影響較大,此方案具有實時性高、數據面調度轉發快速的特點,比較適用于面向時延敏感業務。

下面我們重點分析集中式方案。

4.1 集中式方案功能

算力網絡集中式管理方案通過集中式的控制單元來統一收集全網的算力資源、網絡資源以及其他資源信息,用戶將業務需求發送給這個集中的控制單元,然后由該單元利用全局視角進行最優化的資源選擇與分配。

由于算力網絡編排管理平臺不但要收集各類資源信息,同時還要進行相應的抽象與計算,最后還要將算力分配策略發送給用戶和算力資源池,并調度網絡建立相應的傳送通道。因此算力網絡編排管理平臺需要集成原有網絡的SDN 控制器、NFV 編排器等網絡控制單元。從某種意義上,也可以認為是集成了算力信息與算力策略的新型網絡編排調度系統。

算力網絡編排管理平臺具有三大功能:資源信息收集功能、資源分配調度功能和網絡連接調度功能。

其中:(1)資源信息收集功能:算力網絡編排管理平臺收集各類資源信息,包括但不限于算力資源信息、網絡資源信息、存儲資源信息、算法資源信息等。

(2)資源分配調度功能:根據用戶與資源供應方在算力網絡交易平臺所達成的交易(也可以是匿名交易)情況,算力網絡編排管理平臺將相應的資源分配策略發送給各資源管理方,比如通知算力資源的供應方,在什么時間段有多少算力資源將被占用,同時刷新平臺所記錄的資源信息數據。

(3)網絡連接調度功能:根據網絡資源分配情況,得到網絡連接需求,比如在哪些節點之間需要建立多大的網絡連接,以及提供什么樣的服務質量保障,按照這些業務需求,調度相應的網絡資源,完成網絡連接建立。注,這里的網絡連接不只是傳統的通道建立,也可能根據業務需求,需要部署相應的網元,如5G UPF、vBRAS、vCPE等接入控制網元等。

以上這3 個功能,是算力網絡編排管理平臺所需具備的基本功能,但在實踐中,算力網絡編排管理平臺會根據現有系統情況,靈活地增刪相應功能。

4.2 集中式方案架構

算力網絡集中式方案架構主要由以下4 部分構成。

(1)算力網絡管理編排系統。算力網絡的資源管理和調度系統,根據業務需求對算力資源進行彈性調度,在滿足業務實時需求的同時,提高算力利用率。

(2)賦能平臺。為用戶業務部署賦能,例如針對AI業務的AI 賦能平臺。

(3)邊緣/核心DC。業務部署節點,包含算力資源基礎設施和NFV 基礎設施。其中,用戶應用部署在異構算力資源池之上,vBRAS、vCPE 等虛擬網元部署在NFVI之上。

(4)網絡基礎設施。連接用戶、邊緣云、核心云的網絡基礎設施,包括控制面的SDN 控制器、傳統網管,以及轉發面的網絡設備。

其中,賦能平臺、邊緣/核心DC、網絡基礎設施包含了算力調度的基礎資源,而算力網絡管理編排系統負責對這些資源進行管理和編排,既要實現根據業務需求的動態算力調整,又要實現對各個層面資源的有機協調。

完整的一個算力網絡調度集中式方案的架構,如圖2所示。

圖2 算力網絡集中式方案架構

算力網絡管理編排系統的主要模塊功能如下。

(1)需求解析模塊。分析用戶業務需求,將用戶業務需求轉化為算力資源需求,根據算力需求劃分業務等級,以確定業務的部署位置、所需資源大小等信息。

(2)算法選擇模塊。根據用戶的業務類型和需求解析模塊的結果,在賦能平臺中為用戶選擇合適的部署算法,確定用戶業務部署的規格。

(3)應用部署模塊。根據算法選擇模塊的結果,將用戶業務部署到指定的算力節點中。

(4)算力調度模塊。管理核心云和邊緣云的算力資源,根據業務需求為用戶分配相應的計算、存儲、網絡資源,并根據策略對業務部署位置、業務算力進行彈性調整。

(5)網絡調度模塊。管理用戶、邊緣云、核心云的網絡,在用戶業務部署或調整之后,配置用戶到業務處理節點之間的網絡,將用戶流量路由到處理節點。

在上述功能模塊中,部分功能可以借助現有的技術進行實現,如算法選擇模塊使用大數據分析技術,應用部署模塊借助邊緣計算管控平臺,算力調度模塊使用NFVO,網絡調度模塊使用SDN 控制器等。

需求分析模塊則需要根據服務的用戶類型進行設計,形成標準化的模板,用戶根據自身業務規模提出不同的需求,算力網絡管理編排系統將業務需求轉化為具體的算力資源調度方案,并為用戶分配合適的基礎資源。

可通過將已實現的南向接口協議(如Netconf、Openflow等)進行增強來實現集中式的算力網絡編排管理系統。

4.3 集中式方案工作流程

集中式的算力網絡方案主要工作流程如下。

(1)算力網絡編排管理系統與所有資源及網絡節點建立控制連接,資源結點和網絡節點將自身的計算、網絡等資源信息通過控制連接上報給算力網絡編排管理系統。

(2)算力網絡編排管理系統將獲得的信息進行處理,得到一張總體資源視圖。

(3)當用戶向算力網絡編排管理系統發送其資源需求(或通過需求分析模塊得到用戶的需求),算力網絡編排管理系統將根據用戶的需求將滿足需求的方案返回給用戶供用戶進行選擇(或根據用戶的需求及資源視圖主動為用戶選擇最佳的方案)。

(4)用戶在進行選擇之后,將選擇之后的結果發送給算力網絡編排管理系統(或算力網絡編排管理系統為用戶選擇最佳方案后),算力網絡編排管理系統通過控制連接告知資源節點和用戶并對網絡節點進行業務配置,建立用戶和資源節點之間的通路。

詳細工作流程如圖3 所示。

圖3 算力網絡集中式方案工作流程

4.4 集中式方案應用案例

4.4.1 應用場景方案

A 市邊緣云算力不足無法及時擴容,不能滿足A 市業務發展需求,而傳統資源擴容方案從方案招標、設備采購、設備上架、設備部署,整個資源擴容周期按月計算,嚴重拖延了業務發展速度。通過云調網應用場景,在B 市邊緣云分配算力承載A 市新發展業務,通過算力網絡調度編排系統能力,支持城域網邊緣云資源一體化管理,實現省市跨域資源的共享,按需高效提供彈性資源;支持“視頻監控”應用云網資源的自動化開通與自適應調度。

4.4.2 應用調度流程

集中式方案應用調度流程如圖4 所示。

圖4 應用調度流程

4.4.3 算力網絡調度配置方法

(1)網絡調度:在B 地市資源分配完成后,協同調度多云管配置云上交換機,新增MSE 鏈路子接口,配置子接口地址,配置A 地網段靜態路由指向MSE 側對接地址;調度SDN 控制器 新增VPN,新增上云鏈路子接口加入VPN,配置鏈路子接口地址,配置云上新增資源網段靜態路由指向云上交換機;協同SDN 控制器配置A、B 兩地網PE,配置EVPN(以太網虛擬專用網)打通A 地視頻接入VPN 與B 地新增VPN。

在協同云網管和sdn 控制器之前,需要為業務分配網絡資源,網絡資源是用于網絡編排的與底層網絡部署有關的、不可共享的網絡參數。資源又分為邊緣云資源和城域網資源,邊緣云資源的管理以資源池為單位,一個資源池管理在邊緣云范圍內不可共享的特定類型資源。例如,在同一對視頻云網接入MSE 與邊緣云交換機之間的相同物理線路上,為了隔離兩個不同VPN 的流量,需要為兩個VPN 分配不同的VlanId。

城域網資源以地市城域網為單位,主要有VPN 網號,VPN 網號是專線組網的關鍵參數,不同VPN 不重復,vpn的RD(路由標識)/RT(網絡路由目標)以及EVPN 的RD/RT 均基于VPN 網號按規則生成。

RT/RD 分配規則如下。

①全網狀組網RD/RT 分配規則:

(a)RD 格式:AS 號:VPN 網號;

(b)ExportRT 格式:AS 號:VPN 網號+00

(c)ImportRT 格式:AS 號:VPN 網號+00

② 星型組網RD/RT 分配規則:

中心點:

(a)RD 格式:AS 號:VPN 網號+00;

(b)ExportRT 格式:AS 號:VPN 網號+01

(c)ImportRT 格式:AS 號:VPN 網號+00

非中心點:

(a)RD 格式:AS 號:VPN 網號+01;

(b)ExportRT 格式:AS 號:VPN 網號+00

(c)ImportRT 格式:AS 號:VPN 網號+01

本系統的資源管理模塊支持上述的資源分配與回收邏輯。支持的資源類型包括:VlanId、VPN 網號、IP、通用數值??筛鶕I務管理的需要新增、刪除、修改,并可設置每個資源池中的可用資源范圍。

(2)算力資源調度:算網編排管理平臺根據業務容量需求轉換為算力、內存及存儲能力需求。在換算之前首先需確認業務需求數量,人工觸發場景直接選取應用管理員輸入的業務需求數量;自動觸發場景按應用現有業務容量的10%計算業務需求數量。

各地市邊緣云節點服務器配置不等,同一地市也有提供多種配置的服務器,有物理機、虛機,云化物理服務器配置的cpu 型號也不同;各地市的存儲也有不同;面對網絡中分布的各種異構資源,需要實現計算能力資源的抽象表示。

本應用案例按分配的網絡資源協同控制器向資源管理服務器打通A、B 兩個邊緣云節點之間的網絡,實現集中式方案的算力網絡互調。

4.4.4 實驗效果

“視頻監控”應用經過集中式方案部署,基于算力網絡編排管理平臺,實現了應用從的A 市節點到B 市節點的分鐘級調度拉起;解決了邊緣云資源忙閑不均的問題,提升整體使用效率,通過CT 資源降低IT 擴容成本;實現對云網業務及網絡的實時質量的指標體系的全面掌控。實驗結果數據如表1 所示。

表1 “視頻監控”應用集中式調度測試結果

5 結束語

在5G 高速發展的當今時代,高速率和低時延是網絡的主要技術特征,無線接入的分量越來越重,促進了移動邊緣計算的發展,使業務的產生、處理和應用都可以在本地完成,而不再僅僅依靠遙遠的集中單元,在未來網絡應用中,接入側的影響也會越來越深遠,業務應用的速率和時延要求會越來越高,移動邊緣計算的作用也會更加凸顯,算力網絡架構將會以網絡與計算的深度融合為引擎,集中式技術方案集成了算力信息與算力策略的新型網絡編排調度系統,基于中心化管理編排系統進行狀態同步、同步代價相對較小,在運營商網絡等較大規模網絡應用中效率更高,能有效實現全頻域、全場景、全業務的靈活適配與資源協同,最終實現一體化的算力網絡架構目標,為邊緣云網應用的百花齊放提供穩定、靈活的底座。

猜你喜歡
集中式算力路由
算力盜用:一種新型財產侵害*
中科曙光:聯合發布全國首個“一體化算力交易調度平臺”
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
算力網絡場景需求及算網融合調度機制探討
鐵路數據網路由匯聚引發的路由迭代問題研究
多點雙向路由重發布潛在問題研究
一種基于虛擬分扇的簇間多跳路由算法
路由重分發時需要考慮的問題
光伏:分布式新增裝機規模首次超越集中式
全新Mentor DRS360 平臺借助集中式原始數據融合及直接實時傳感技術實現5 級自動駕駛
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合