?

一種面向服務的算網路由架構方案

2023-09-21 08:47黃光平HUANGGuangping譚斌TANBin吉曉威JIXiaowei
中興通訊技術 2023年4期
關鍵詞:算力路由節點

黃光平/HUANG Guangping,譚斌/TAN Bin,吉曉威/JI Xiaowei

(1. 中興通訊股份有限公司,中國 深圳 518057;2. 移動網絡和移動多媒體技術國家重點實驗室,中國 深圳 518055 )

在網絡路由和調度體系中引入算力是算網融合架構中的重要增量,網絡因此擴展了對算力的感知能力。同時,路由和調度流程實現了算力和網絡兩個維度資源狀態的融合考量,即行業通常所說的算力路由[1]。算力路由是算網融合的主要技術錨點[2-3]。算力路由從端到端協議和流程方面,打破了網絡和算力這兩個傳統上相互隔離的技術和資源體系壁壘,實現了“網中有算,以網強算”。算力路由的本質是:面向同類算力服務的分布式等價多實例,基于算力和網絡的資源狀態以及業務需求,執行網絡和算力聯合優選尋址,即“一對多”的算網尋址路由。其中的“多”表示網絡和算力均存在多路徑、多實例的權衡優選。而面向用戶的算力服務是位置無關的,甚至可能是歸屬無關的。用戶對算力服務的請求僅表達意圖,無須關心服務的提供方和部署位置。這是算力路由跟傳統基于主機位置的IP 路由最本質的區別,也是算力路由協議體系存在的主要變量之一[4]。

算力路由引入位置無關的服務標識,將其作為路由和尋址的全新對象,在使能全新的算力感知和路由功能的同時,也為現有網絡路由尋址協議帶來新的擴展需求和挑戰。因此,新架構功能在引入的同時,需要保持與現網架構兼容。服務標識的引入在客觀上打通了業務和網絡之間的高效感知接口。網絡通過服務標識可以精細化識別業務,并提供相應的細顆粒度網絡連接服務。

面向服務的算網融合路由技術在典型的業務場景下,有獨特的業務和資源應用價值。而當前的業務場景還存在一些亟待解決的問題,仍需要充分發揮面向服務的算網融合路由技術的優勢。

1 算力路由在IP分組網絡中面臨的主要問題

算力路由是疊加在傳統IP 分組網絡基礎上的一種增強性路由。在主機IP 地址路由的基礎上,網絡需要增強算力感知的能力,并在此基礎上執行算網融合路由。這既包括對算力服務的路由尋址,也包括對算力服務節點的主機路由尋址。算力感知和算力路由引入了全新的算力因子,這給IP分組網絡帶來4個方面的問題。

1)IP主機地址路由體系下的算力服務路由尋址問題

基于IP 分組網絡的算力路由,本質上是面向服務的分布式多算力實例尋址路由,即基于算力資源狀態和網絡資源狀態,在多實例多路徑中根據服務等級協議(SLA)需求進行算力節點優選或引流。這種面向服務的分布式路由機制,跟面向IP 主機地址的路由機制完全不同。后者指向全局唯一主機,且基于前綴的尋址機制是基于物理上的子網部署模式;而算力路由從語義上并不指向特定算力服務主機,而是指向特定算力服務,并且同一類算力服務可能部署在不同的物理子網內。因此,基于IP 前綴的子網模式并不適用于算力服務的部署模式。同一類算力服務與多服務實例及多實例主機地址關聯,算力服務僅僅充當一種抽象類型索引。網絡需要在這個服務索引與它對應的算力、網絡資源、服務實例主機地址之間構建動態的映射關系。

2)算力感知對IP路由協議造成的震蕩問題和表項膨脹問題

網絡對算力資源狀態的感知,需要針對相應的接口和協議進行擴展,并且在網絡路由和轉發節點引入新的算力路由表項。然而,算力資源類型及其狀態變更頻率都非常多樣化,全顆粒度算力資源狀態向網絡暴露,將不可避免地導致現有網絡協議(如邊界網關協議)收斂震蕩,對現網運行造成破壞性沖擊。除此之外,海量的算力資源狀態必將導致網絡路由和轉發節點對應數量級的算力路由表項,對節點性能造成嚴重影響。

3)算力對網絡暴露的參數類型及顆粒度問題

對IP 分組網絡控制面而言,算力參數可以分為算力原始狀態數據和網絡鏈路維度的算力度量折算值(即網絡路由域的Metric)。

a)算力原始狀態數據。算力系統通過預定接口向網絡管控系統直接通告算力原始運行狀態數據,如服務實例會話負荷、CPU/GPU 占用率、內存占用比等。網絡管控系統會對這些原始數據按照特定規則或算法進行處理,并生成對應的算網路由策略,指導網絡路由和轉發節點進行流量引流和路由。這種模式將顯著增加網絡管控系統的處理復雜度和運行負荷。

b)網絡鏈路維度的算力Metric。算力系統將自身運行的動態數據折算成網絡鏈路維度的Metric并向網絡管控系統通告,后者據此執行傳統IP 路由。但是這種模式勢必引入巨量的頭結點路由開銷,比如需要維護每實例、每出口節點、每鏈路的路由條目[5-6]。

4)算力與網絡融合路由帶來的多因子多策略問題

基于分組網絡系統執行算力路由時,網絡和算力融合路由將帶來多因子聯合優化的策略問題。算網雙維度因子的全面融合將導致路由協議體系及其算路流程復雜度翻番,并嚴重沖擊當前既有的路由和轉發性能,無法實現與現網的平滑兼容。

2 基于服務標識的算力路由技術

在IP 路由協議體系中引入一個擁有獨立語義的服務標識,將從根本上解決前文所述算力路由在IP 網絡中面臨的主要問題,并提供統一的端到端架構解決方案。當然,服務標識也給IP 網絡帶來一些新問題。這是在進行架構設計尤其是服務標識設計與界定的過程中需要特別考量的。

2.1 基于服務標識的算力路由架構

在算網融合調度和路由系統中引入服務標識,為IP 分組網絡提供了一個面向業務和算力系統的新型接口,使網絡得以提供面向服務標識的路由和尋址功能。如圖1所示,基于IP 分組網協議的服務標識在數據面擴展定義和封裝,并在控制面經由服務標識,打通算力系統動態資源和業務系統精細化SLA 需求的感知接口,從邏輯上構成一個在IP 分組網上的OverLay 服務子層。傳統分組數據網作為連接子層,為服務子層提供連接支撐能力。服務子層與連接子層之間以控制面服務標識為索引進行交互[7]。

▲圖1 基于服務標識的算網路由架構

如前文所述,服務標識在語義上與主機位置無關,因此傳輸層有可能通過服務標識保持業務連接,從而解決傳統傳輸層終端或服務遷移連續性的問題,即主機地址變更導致的鏈路遷移僅在L3層執行,而L4層面向終端和用戶的業務鏈接因為服務標識的位置無關屬性得以維持不變,從而保障用戶在這類場景下的業務體驗。

數據面的服務標識是面向用戶的一種輕量級算網服務能力集合表征。服務標識關聯的算網質量和能力在特定算網運營管理域內可管可控,比如擁有端到端20 Mbit/s保障帶寬的某種視頻業務、10 ms端到端時延保障的渲染業務等。因此,服務標識內生支持精細化算網SLA需求的表征和接口??刂泼婊谶@種服務標識的算網SLA Profile 以及算網資源狀態,生成以服務標識為索引的路由和轉發策略,并將其下發到服務網關,指導業務流量轉發。以入口服務網關對業務流量的轉發和路由流程為例,用戶側報文通過服務標識表達對算力系統中特定算力服務的訪問意圖,以及這種服務在算網系統中的SLA需求。這里的服務標識并不指向特定的主機,而是由服務網關根據控制面的算網策略表選擇特定的服務主機和網絡鏈路,從而同時實現多服務實例間的算力優選和多網絡路徑中的路徑優選,為對應的業務提供精細化的算網策略編排。由此可見,服務標識在東西向充當網絡和算力系統之間的資源感知接口,在南北向充當網絡和業務之間定制化業務SLA需求的高效感知接口。

需要指出的是,服務標識本身并不需要包含業務SLA需求的信息和參數,它僅需要在數據面和控制面之間充當映射接口即可。業務SLA需求語義由控制面來維護和表征。服務標識的可管可控、輕量級設計在解決安全性問題的同時,不會給服務網關硬件處理性能帶來額外負擔[8]。

1)服務標識的治理

如前文所述,服務標識對用戶、業務、算力和網絡系統而言是一種接口。對于算網基礎設施資源和業務運營方而言,服務標識是一種服務能力承諾。算網運營方應該對服務標識的全生命周期可管可控,即服務標識的注冊、發布、訂閱、更新和中止均應在算網運營系統的閉環治理范圍內。在不同的算網運營管理域之間,服務標識的互通需要經過協商、映射甚至標準化,而這取決于特定算力服務的部署和運營模式。除了部分獲得行業高度共識的基礎服務涉及全網互通標準化之外,大部分服務標識的治理在單運營管理域內完成,無須標準化。

2)服務標識的封裝

服務標識的表征對象是分布式多云部署的基礎通用算力服務,因此,標識的對象空間有限。通常而言,16~32 bit 足夠覆蓋既存的、可預見的服務類型。具體到IPv6 報文頭接口,服務標識的封裝分為重用IPv6 固定字段和擴展報文頭定義封裝兩大類。

a)重用IPv6固定字段。源、目的地址以及流標簽均可重用部分或者全部字段空間表征服務標識語義。如圖2 所示,基于SRv6 地址結構的服務標識封裝可重用功能中的低位16 bit。這種封裝模式充分保留了SRv6地址原有的語義和功能。在重用IPv6 固定字段的模式下,終端接口、業務請求流程以及協議棧均保持不變。此時方案落地環境兼容性較好。

圖2 基于SRv6地址結構的服務標識封裝示例

b)擴展報文頭定義封裝。在IPv6標準擴展報文頭目的選項頭(DOH)、逐跳(HBH)、路由擴展頭(SRH)中單獨定義和封裝服務標識頭結構,如圖3所示。服務標識頭結構在服務標識之外封裝了其他可選字段,用于特定場景。這種封裝模式的優勢是獨立封裝,不受服務網關節點本地處理機制的影響。服務標識可以直通算力服務系統,為算力系統網絡提供增值功能,如可視化操作維護管理(OAM)、基于服務標識的云內均衡和引流等。

▲圖3 服務標識在IPv6擴展報文頭中的獨立封裝示例

2.2 層次化算力路由機制

將算力系統的全顆粒度算力資源狀態信息通告同步到網絡管控系統,將會導致現有IP 分組網絡協議收斂震蕩和表項膨脹。為保持算力路由與現網路由協議體系的平滑兼容,需要對算力資源狀態進行分類和聚合,在不同的網絡節點維護不同類型的算力資源類別以及對應的算力路由表項,從而確保算力路由通告與現有IP 路由之間的平滑兼容。全局算力路由表項條目數量僅與網絡邊緣節點有關,與云側算力服務實例無關。這將壓縮遠端網絡節點維護的算力路由表項空間,減輕節點的查表和處理負荷。高頻變化的算力服務實例資源狀態僅維護在本地網絡邊緣節點。這種層次化算力路由的機制,將控制面的端到端算網路由決策分層分布在網絡遠端和本地邊緣節點,在轉發流程上涉及兩段路由轉發:從網絡遠端到本地邊緣節點、從本地邊緣節點到算力服務實例。當然,這種層次化表項維護機制,將可能導致網絡頭結點算力資源信息的部分失真,可以滿足絕大部分算力業務路由場景需求,但在極端異常場景下,仍需要引入丟棄或保護策略機制。

2.3 基于算力感知的算網路由解決方案

算力資源狀態如何約束和影響網絡邊緣節點對算力和網絡的選擇,是算力路由的關鍵,也是基于IP 路由的主要增量。因此,算力資源狀態在網絡控制面的呈現形態,是決定選擇哪種端到端算力路由解決方案的關鍵因素。如前文第1節所述,算力參數主要有原始算力參數和網絡維度算力Metric兩種主要的呈現形態,與之對應的是兩種不同的算力路由方案。

1) 基于算力映射的算力路由方案

算力系統向網絡管控系統通告算力服務關聯的原始算力狀態數據。該原始算力狀態數據與網絡控制面路由決策系統之間的索引接口即為服務標識。網絡控制面基于此類原始算力狀態數據,結合網絡資源狀態、業務SLA需求,生成算網路由策略,完成原始算力狀態數據到主機地址的映射。這個方案的優勢是網絡節點無須維護額外的算力路由表項。當然,在分布式路由協議方案下,算力原始狀態數據的通告同樣需要層次化狀態維護機制,以平滑兼容現網路由協議。

2) 基于算力Metric的算力路由方案

算力系統通過一定的度量和折算機制,將算力服務關聯的原始算力狀態數據轉換為網絡維度的度量Metric,并通過特定協議接口向網絡管控系統通告。具體來講,這里的Metric 可以是網絡維度既有的Metric 類型(如時延、帶寬、等),也可以是新增的算力Metric 類型。前者可以沿用既有的路由算法完成端到端算網路由編排,后者則需要擴展基于算力Metric的路由算法完成端到端路由編排。分布式路由協議方案下的層次化路由機制引入與上文所述類似,這里不再贅述。

2.4 基于算力與網絡解耦的多因子多策略路由機制

在IP 分組網絡基礎上執行算力路由,本質上是將傳統IP網絡的網絡單維路由算法升級為算網二維路由算法。算力和網絡兩個維度的約束變量理論上是乘數關系,但在實際部署中,這種算網全維乘數算法將大幅增加路由算法的復雜度,甚至破壞現有IP 路由協議機制的穩定性。遠端網絡邊緣節點將“選算”和“選網”分離處理,使兩類路由先決策再進行線性疊加,形成近似的算網融合優化路由策略。因此,算力和網絡路由解耦,將算網二維乘數算法簡化為一維線性疊加算法,并在算網融合的基礎上,簡化路由協議流程。需要說明的是,這種解耦機制不影響現有IP路由協議。

算網解耦以及算力、網絡、業務SLA多種路由因子的引入,也為算網系統提供了多元調度機制,使能靈活的算網業務和資源運營模式。算網調度因子可以分為如下3類:

1)體驗類:服務質量和體驗相關的SLA指標,如時延、抖動、丟包等;

2)代價類:服務關聯的算網資源成本、能耗等;

3)資源類:服務關聯的算網資源的使用效率,如算網均衡度、算網利用率等。

相關算網調度策略有4種:

1)體驗優先:體驗類指標最優調度;

2)代價優先:體驗類指標滿足設定門限指標,代價類指標最優調度;

3)資源優先:體驗類指標和代價類指標均設定門限指標,資源類指標最優調度;

4)資源均衡:體驗類指標和代價類指標均滿足設定門限指標,資源類指標均衡調度(資源使用率的方差最?。?。

3 基于服務標識的算網路由評價體系及測試分析

相對于傳統IP 路由,算力路由帶來了多方面的增量功能。這里我們從4個維度給出算力路由價值評價體系,并對方案的部分測試數據進行簡要分析。

1)增強服務會話響應時延性能。算力路由通過數據面帶內服務發現替代傳統DNS 帶外服務發現。這里的服務響應時延是指:客戶端首包發出到獲得服務的時間間隔。DNS服務發現機制下的服務響應時延在100 ms~1 s 之間。本文以傳輸控制協議(TCP)3 次握手為服務會話建立基準,使端到端響應時延低至2.76 ms,大大提高了服務會話的響應時延性能。

2)提升服務算網質量。網絡感知與計算、網絡質量是SLA 雙維度保障。在服務體驗方面,網絡可能會出現丟包、卡頓等現象。業務有效通量為用戶的實際業務量。

3)實現資源利用率均衡。這包括網絡資源利用率均衡、算力資源利用率均衡(池間),涉及網絡負載偏離度和算力負載偏離度。其中,網絡負載偏離度是指:調度過程中同一時刻不同網絡路徑的資源利用率的最大差值,算力負載偏離度是指:調度過程中同一時刻不同算力池的資源利用率最大差值。本文中,我們測試了兩種機制下的資源利用率均衡度。在非均衡調度條件下,4個用戶的流量均為20 Mbit/s,由資源池A提供服務,資源池B空載,此時負載偏離度比較高(>40%);在均衡調度條件下,4個用戶的流量均為20 Mbit/s,由資源池A和資源池B提供均衡服務,此時負載偏離度較低(<11%);

4)提高資源利用效率。資源總量相同,網絡可以承載更多的用戶會話。

4 總結

在傳統IP 路由的基礎上擴展算力路由功能,是實現算網融合的關鍵技術要素。算力路由與IP 主機路由之間在機理和目標方面存在較大的差距,從而給方案部署帶來諸多挑戰。本文聚焦4類算力路由帶來的協議和調度策略問題,并以平滑兼容現網協議和架構為目標,針對性地提出基于服務標識的算網路由架構方案。該方案的核心是引入獨立于IP主機地址的服務標識,并構建用戶與算網系統之間、網絡與業務之間、網絡與算力系統之間的簡明高效互通接口。在此基礎上,本文創造性地提出層次化算力路由、算力映射與算力Metric路由機制、基于算網解耦路由的多因子多策略算法等解決方案,為IP 分組網絡提供兼容性較好的端到端算力路由方案;同時,基于4 個維度的算力路由價值評價體系,對部分典型場景測試數據進行分析。

猜你喜歡
算力路由節點
蘇州:到2025 年算力產業創新集群規模達4 000 億元
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
CM節點控制在船舶上的應用
基于SiteAI算力終端的交通態勢感知系統
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的門窗節點圖快速構建
探究路由與環路的問題
抓住人才培養的關鍵節點
PRIME和G3-PLC路由機制對比
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合