?

算力網絡場景下的超算互聯網建設探索與實踐

2024-03-16 10:49王繼彬齊魯工業大學山東省科學院山東省計算中心國家超級計算濟南中心算力互聯網與信息安全教育部重點實驗室山東濟南250101山東省計算機網絡重點實驗室山東省基礎科學研究中心計算機科學山東濟南250101濟南超級計算技術研究院山東濟南250101
郵電設計技術 2024年2期
關鍵詞:算力結點調度

王繼彬,張 虎,陳 靜,郭 瑩,3(1.齊魯工業大學〔山東省科學院〕,山東省計算中心〔國家超級計算濟南中心〕,算力互聯網與信息安全教育部重點實驗室,山東濟南 250101;2.山東省計算機網絡重點實驗室,山東省基礎科學研究中心〔計算機科學〕,山東濟南 250101;3.濟南超級計算技術研究院,山東濟南 250101)

1 算力網絡概述

2021年5月,國家發改委等四部門聯合發布了《全國一體化大數據中心協同創新體系算力樞紐實施方案》,第一次把“算力網絡”概念寫進了國家文件里,提出了構建數據中心云計算大數據一體化的新型算力網絡,布局建設全國一體化算力網絡國家樞紐節點,實施“東數西算”工程。隨著工程的深入推進,我國數據中心網絡云化趨勢將不斷增強,正發生從云網協同、云網融合到算網協同的轉變,進而實現算力泛在可達、算力與網絡一體化發展的目標。算力網絡需要網絡和計算高度協同,將計算單元和計算能力嵌入網絡,實現云、網、邊、端的高效協同。

為了滿足數字經濟千行百業對海量算力的迫切需求,加快全國一體化大數據中心系統創新體系算力樞紐的建設,A 市超算基于國家和省市算力網絡布局要求,構筑了以教育、科研、企業、政府為重點服務對象,基于繼承與創新結合、性能與能耗平衡、應用與設計協同、易用與先進并舉的技術路線,深度融合“超級計算+大數據+人工智能+云計算”等新一代信息技術,在某省范圍內構建實現一體化算力平臺。

平臺整體按照省級一體化大數據中心空間布局的要求,依托國家超算中心的骨干網絡和算力規模優勢,構建三核架構的省級一體化算力中心核心結點,形成3 個低時延算力中心核心區,并支持擴展至某省16 地(市),可支撐地(市)低延時邊緣算力中心接入,構筑完成多元異構、云邊協同的一體化算力網絡體系。

1.1 算力網絡分級架構

算力網絡是一張以業務應用需求為核心,深度融合協同計算、存儲、網絡資源的服務平臺,可以實現像“水、電”一樣的算力供給服務。依托超算算力網絡實踐,探索并提出了融合“算力生產-算力互聯-算力配給”為一體的三層算力互聯網體系結構,即超算中心內節點(計算、存儲)間高速互聯以構建超級計算機的算力生產網絡、超算中心之間高速互聯以高效資源聚合的算力互聯網絡和算力互聯網絡與用戶之間高速互聯以高效輸送算力資源的算力配給網絡,體系結構中每一層可橫向擴展,涵蓋算力和網絡異構資源,覆蓋算力資源從產生到傳送再到應用的全部生命周期,實現超算中心內節點(計算、存儲)間、超算中心之間網絡的高速互聯。整體網絡分級架構如圖1所示。

圖1 算力網絡分級架構(以超算互聯網絡為例)

1.2 算力網絡結點分類

依據算力網絡中不同結點承載的功能不同,可以將算力網絡中的結點分為算力中心結點、存力中心結點和網絡中心結點3 類,各結點間通過低延遲高速互聯光纖網絡實現骨干級直聯,保障計算、存儲和網絡服務的輸出。這里結點指的是輸出不同算力服務的集群、數據中心。具體每類結點的承載的能力如下。

a)算力中心結點。主要提供算力服務,包括高性能計算、人工智能計算、云計算、大數據計算等多種計算服務。

b)存力中心結點。主要提供存儲服務,包括文件存儲、塊存儲、對象存儲、鍵值存儲等多種存儲形式。

c)網絡中心結點。包括CDN、網絡加速、網絡轉發、網絡接入、SD-WAN 接入網關、云連接器、高速通道、VPN網關、邊緣網絡加速等網絡連接能力。

通過上述結點分類,可以通過部署不同的算力平臺服務組件實現對各類結點輸出服務的統一納管,并實現資源的協同調度。

2 算力基礎設施架構設計

2.1 資源納管架構思路

算力網絡平臺的資源納管方式目前比較成熟的設計思路是通過分別建設多個不同的算力資源池和配套的調度平臺、服務平臺,然后通過統一的一套云計算平臺適配接入相應平臺的北向接口實現松耦合形式的資源納管能力,如對接高性能計算平臺調度器(Slurm、PBS 等)。該方式存在的問題是無法實現對接入資源平臺的計算、存儲和網絡3 個部分能力的統一調度,同時在異構資源池場景下,用戶側的資源創建流程和參數差異性較大,交互性差。

面向算力網絡場景下的資源納管平臺架構目標應該是通過擴展云計算平臺調度器的方式實現高性能、人工智能和云計算等多元異構算力資源的納管和算力服務的交付,底層可以通過打通以虛擬網絡為核心業務數據傳輸通道和存儲業務系統實現對計算集群的數據流轉。

為實現上述目標,平臺還應解決資源的智能感知和協同調度、廣域數據統一存儲和智能流轉、算網業務流程編排及優化等技術問題。具體應從以下幾個方面進行設計。

2.1.1 算網資源智能感知與協同調度技術

如圖2所示,針對超算中心、邊緣數據中心的接入與資源自動感知,首先需明確算力網絡資源池結點類型和接入技術,即針對擬接入的國家級/區域級/邊緣級算力集群,選擇結點類型并確定算力入網資源,如計算、存儲、網絡、軟件、數據等,對算力入網各類資源進行審核、抽象建模及封裝,然后進行算力接入、鏈路并網,將各類算力數據中心資源匯集到算力資源池,通過算力注冊、算力發布建立算力服務目錄滿足用戶需求;其次,研發代理組件和相關南北向接口,通過網絡互聯、安全策略配置、代理實時監測、訂閱/發布消息等方式實現算力資源的自動感知,實時監測感知各數據中心可提供的算力能力,并對算力資源池和算力服務目錄進行更新,同步更新各級算力中心可提供資源服務能力指標。

圖2 算力資源智能感知和協同調度

2.1.2 算力網絡多維資源協同調度技術

算力網絡完成資源接入后,為了實現統一的資源調度和編排,還需考慮具體的調度算法和技術(見圖3)。首先應分析接入的異構算力集群采用的調度器類型,如Slurm/PBS/Volcano 等;其次,分析各調度器作業執行模式、調用參數、調用關聯過程,提取通用特征和個體特征,構建統一算力融合調度模型,定義統一的作業調度、算力管理、算力調度等通用接口,屏蔽底層調度器調度命令和參數的異構性,設置調度可選參數突出調度器的個性化;再次,需要重點考慮的是算力資源的融合調度場景,即當協同計算任務提交后,通過解析調度參數并獲取各算力集群可提供的計算、存儲和網絡等資源能力,根據調度策略和調度方法,通過算力能力和網絡路由尋優選擇合適的算力集群進行協同計算。

圖3 算力網絡場景下的多維資源協同調度技術

這里全局資源調度主要有基于優先級、基于負載均衡、基于成本、基于任務和資源親和性4 種策略,在調度維度上綜合考慮計算、存儲、網絡、軟件算法等各類通用資源指標的協同,同時有針對性地分析各種調度方法的影響因素和目標,實現多維度資源和目標協同,建立同步、差異情況下的資源協同調度邏輯,實現算力資源的高效調度。

2.1.3 數據統一存儲和智能流轉技術

以超算應用場景為例,傳統計算密集型超算正在向數據密集型超算轉型,即發展以數據為中心的高性能數據分析平臺,通過融入存力中心結點能力,實現與多方聯合對外提供數據服務能力。但是數據跨域分散且隔離自治未得到有效匯聚,難以實現有效管理和共享,無法充分發揮多個存力中心結點并發處理海量數據的能力,導致各超算中心數據重復存儲以及較低的數據訪問能力,嚴重影響數據處理效率。

如圖4 所示,為了適應算力網絡場景下的數據處理網絡構建趨勢,突破數據統一存儲與高效流轉技術至關重要。這里需要考慮以下3個方面的問題。

圖4 算網廣域數據統一存儲和智能流轉技術路線

a)針對存儲、數據資源廣域分散且隔離自治等問題,需設計全局數據空間描述方法,采用相應的數據索引技術,實現異構存儲資源統一管理和高效訪問。

b)針對帶寬受限且時延高的算力網絡環境下數據高效訪問問題,采用基于數據血緣的數據流轉對象智能選路技術和加速技術,支持網絡路由智能選擇、數據壓減、數據合并與拆分等,支持網內海量大文件、小文件等數據的高速流轉或遷移,以提高算力網絡不同結點間數據傳輸性能。

c)構筑數據流轉總線,通過對接不同數據存儲系統,實現對異構存儲系統下異構數據的統一跨域傳輸支持,實現基于實時線路帶寬、數據位置等多因素的路由選取、數據壓減、數據合并與拆分等,解決數據流轉的高速智能調度問題。具體來說,可以在云計算平臺底座中設計存儲流轉和數據管理模塊,實現對常見存儲系統如并行文件系統Lustre,文件存儲系統NFS和對象存儲OSS 的統管能力,配套的代理組件可以部署至存力中心結點。

2.2 網絡能力架構思路

2.2.1 組網拓撲

為了滿足不同類型業務的承載需要,針對“省市”兩級架構的超算算力網絡,采用SRv6 網絡分片技術(Segment Routing over IPv6),將一套物理光網絡劃分為多個網絡業務平面,從而構建“一網多平面”的網絡架構,支持依據不同業務應用的SLA 的需求,可以選擇將不同的業務承載在不同的網絡分片上。在組網拓撲上,物理層將網絡劃分為多個網絡分片,設備內部給分片網絡分配獨立的隊列資源,實現無阻塞的即時轉發,最終達到端到端的帶寬保證和業務硬隔離。切片內可根據業務子類分配不同的VPN,進一步實現軟隔離。在運維層面,通過SDN 控制器(Software Defined Network)實現業務快速下發及流量調優,以及通過隨流檢測技術(IFIT)對業務進行實時質量監控及故障的快速定位定界,其邏輯架構如圖5所示。

圖5 省市兩級組網拓撲技術

2.2.2 地址規劃

超算算力網絡以IPv6 地址族作為基礎網絡地址,通過EVPN+SRv6 技術承載IPv4、IPv6 業務及網絡管理。IPv6 地址為128 bit 的二進制位,采用十六進制表示方式。超算算力網絡接入點對IPv6 地址的分配遵循“先申請,后使用”的原則,由算力網絡管理單位統一分配各接入結點的IPv6地址前綴(96 bit),并為每個結點分配足夠容量的地址塊(32 bit)。各級結點按照IPv6 地址分配原則,規范合理地使用本級IPv6 地址塊。A市超算構筑的算力網絡IP地址按使用用途分為業務地址、終端地址和管理地址三大類,分別用于部署服務器、終端和網絡設備。具體劃分原則如下。

a)業務地址。業務地址是超算互聯網中用于對外提供服務的服務器、存儲等設備使用的地址。業務地址包括IPv4業務地址及IPv6業務地址。

b)終端地址。終端地址是不對外提供服務的終端設備所用的地址。終端設備包括臺式電腦、筆記本電腦、移動終端等。終端地址包括IPv4 終端地址及IPv6終端地址。

c)管理地址。管理地址是某省超算互聯網內網絡設備、安全設備使用的Loopback 地址、接口互聯地址以及網管系統、安管系統、DNS 服務器等使用的地址。

2.2.3 用戶接入規劃

超算互聯網組網完成后,需要解決用戶接入到算力網絡的最后一公里問題,可提供多種形式的接入,如IP 專線接入、無線接入和互聯網接入等,這里推薦采用SD-WAN 方式接入。如圖6所示,通過在SRv6技術構筑的業務網絡之上部署SD-WAN 接入網絡,可以方便快捷地實現終端用戶快速訪問算力資源的目標。SD-WAN 網絡主要包括Edge 和SD-WAN 網關2 種類型的網絡設備。

圖6 用戶接入網絡規劃

SD-WAN Edge 主要是指用戶側的出口CPE(Customer Premises Equipment)設備,Edge 設備是SD-WAN網絡隧道的發起和終結點,也可以看作是SD-WAN 網絡的邊界點。Edge 之間的Overlay 隧道可以構建在任意的有線或者無線的Underlay WAN 技術之上,并且通常與某種數據加密技術(如IPSec)結合使用,以確保用戶數據傳輸的安全性。這里Edge 側的CPE 設備通常具備多種WAN 的接入能力,具備豐富的接口類型,比如傳統寬帶Internet 的DSL、LTE、4G/5G 等,同時還支持面向應用的應用識別、鏈路質量監控和選路、QoS以及廣域優化等技術。

SD-WAN 網關是連接用戶側的CPE 終端和其他傳統VPN 站點的中間設備,需支持SD-WAN Edge 所具備的SD-WAN overlay 隧道方案,同時需要支持同用戶傳統網絡互通所需要的傳統VPN(如MPLS VPN)技術。具體在超算互聯網場景下,其可以部署在算力中心、存力中心和網絡中心3類結點邊界側。

2.2.4 網絡效率問題及加速方案

傳統通過互聯網絡傳輸視頻等大文件時,即使使用千兆或萬兆專網網絡,其傳輸速率仍然不高,這主要是由TCP 傳輸協議基于丟包的網絡擁塞控制算法導致的。當前基于丟包的擁塞控制算法已不適應高帶寬并且存在一定丟包率的網絡,不能發揮網絡尤其是算力網絡的最大效率。主要體現在如下2個方面。

a)在存在丟包率的鏈路中,TCP 協議不能充分利用帶寬。在TCP 擁塞控制算法中,TCP 判斷鏈路出現擁塞的依據是發現網絡出現丟包現象,但是傳輸錯誤導致丟包是常見現象,并不是鏈路擁塞導致的丟包。所以在鏈路有一定丟包的情況下,TCP 傳輸速率總是被限制在較低水平,不能充分利用帶寬。

b)基于丟包計算窗口的算法,TCP 協議會填滿鏈路上帶寬瓶頸設備的緩存,從而增加網絡延遲。TCP算法在增加窗口試探最大帶寬的過程中,鏈路上在傳輸但未被對端收到的數據一直在增多,報文開始占用瓶頸設備的緩存時,因為瓶頸設備的發送帶寬已經占滿,所以再提高擁塞窗口其實并不能再增加實際發送速率,只能增加緩存的占用,導致報文在緩存中堆積得越來越多。最終導致的結果是緩存占用越多,網絡延遲越大。

綜上所述,算力網絡中的基礎網絡能力建設,除了應解決組網、接入等問題外,還承擔數據傳輸和流轉的職能,因此,還需考慮網絡傳輸效率問題,如何基于現有協議進一步優化提升數據傳輸效率是當前算力網絡演進迭代過程中需要面對的問題。通過在數據傳輸服務器端側網卡做TOE(TCP Offload Engine)卸載,從而達到TCP 加速的目的,是一種比較可行且成本較低的設計思路(見圖7),具體配置步驟如下。

圖7 算力網絡數據傳輸加速設計

a)首先完成B 市用戶側到A 市超算算力池互聯網絡接入。具體通過網絡管理平臺利用SRv6 技術切分出一條業務網絡。

b)在已分配的業務網絡之上,配置SD-WAN網絡隧道,并開啟網絡加速功能。

c)在用戶接入側和數據接收側服務器端啟用TOE卸載功能。

d)在SD-WAN edge 上開啟TCP 代理重新建立socket,進行TCP單邊加速。

3 算力網絡應用實例

3.1 超算互聯網絡部署架構

算力網絡實施圍繞某省16 地(市)超算互聯網應用展開,構建了A 市—B 市—C 市3 個核心結點,結點間通過100 Gbit/s 光纖環網專線網絡直連,周圍13 地(市)就近連接3 個核心結點,網絡帶寬為10 Gbit/s。在服務部署方面,所有地(市)結點分別部署了運營商路由器(Provider Edge,PE)、SD-WAN 網關、資源納管和調度服務組件;在資源池部署方面,分別在B 市、D市部署了人工智能集群,在B 市、C 市和A 市部署了高性能計算集群和云計算集群,其余地(市)均部署了云計算集群,這里云計算集群均采用OpenStack架構。

3.2 算力網絡應用實現

算力網絡在科學計算、數據處理、工程仿真等方面應用非常廣泛,圍繞某省16 地(市)算力網絡集群,將面向遙感數據產品生產、分析和挖掘方面的應用,闡述算力網絡所具備的應用支撐能力。

3.2.1 需求分析

據國家對地觀測科學數據中心(NODA)統計,每年NODA 匯集10PB以上的對地觀測數據,若要充分發揮如此海量數據的價值,則需要大規模高性能的存儲系統滿足存儲需求,需要PB 級的高性能計算、智能計算、云計算等異構算力協同完成數據的處理和挖掘,需要10 Gbit/s帶寬的專用高速網絡才能滿足數據傳輸的需求。而且以上統計數據只是針對遙感初級數據,如果想要對更高級的數據產品進行生產、分析、挖掘,則需要海量的算力、存儲、網絡資源。因此,在遙感數據產品生產、分析和挖掘的應用場景下,需要算力網絡跨域異構資源協同調度和使用的能力,更好地支持遙感數據產品應用。

3.2.2 遙感數據生產應用實現

下面以遙感數據產品生產過程為例,闡述算力網絡的典型應用場景。該數據產品生產過程如下:將基于Landsat8 原始數據經過地表反射率數據產品生產、地形校正TC 產品生產、Fmask 云掩膜產品生產、利用Fmask 云掩膜產品對TC 產品掩膜、數據產品拼接及圖片輸出。具體過程涉及的算力資源支撐如下。

a)地表反射率數據產品生產計算量巨大,需要使用高性能計算集群進行統一計算和數據生成。

b)地形校正TC 產品生產和Fmask 云掩膜產品生產可以并行進行,且2類數據產品的計算量較小,因此可以使用云計算平臺中的彈性高性能計算(EHCP)服務進行支撐,避免過多占用高性能計算集群的算力,影響地表反射率數據產品生產。

c)利用Fmask 云掩膜產品對TC 產品掩膜,該過程計算量較小,可以使用普通的云主機資源進行支撐。

d)數據產品拼接及繪圖涉及到較多的圖形拼接和繪圖,因此需要附帶GPU 資源的云主機進行處理計算,并輸出JPG格式圖片。

整個遙感數據產品生產過程,以及配套資源的支撐情況如圖8 所示。從圖8 可以看出,整個計算過程也使用了算力網絡對跨域異構存儲系統的統一管理和數據智能流轉的功能,如在EHPC 集群中將地形校正TC 產品和Fmask云掩膜產品生產完后,會使用數據智能流轉技術,將結果數據從Lustre 并行文件系統遷移至高性能共享存儲系統中。

圖8 基于算力網絡環境的遙感數據產品生產流程

綜上,在這個典型應用實例中可以看出,算力網絡不僅可以提供異構算力資源的協同調度,支持各類計算任務。同時,可以對跨域異構的存儲和網絡資源進行統一的管控和調配,從而實現了對各類計算任務和應用的優化支撐。

3.3 典型應用場景

在具體應用支撐領域,算力網絡主要適用于分布式數據處理、高通量計算、弱耦合作業、工作流等場景,具體如表1 所示。從表1 可以看出,以數據為切入視角,算力網絡可以有效支撐跨域分布式存儲場景下的數據處理。以計算作業為視角,針對松耦合、工作流模式的計算任務場景,算力網絡支持任務的并行調度、分拆和結果合并,支持以應用任務流為核心的算力集群調度和以數據為核心的智能流轉。

表1 算力網絡應用場景

4 總結及展望

本文主要以算力網絡中的超算互聯網建設為視角,提出了一種算力網絡分級、分類設計思路,并結合算力基礎設施架構要求,并從資源納管關鍵技術和組網架構2 個方面給出了實踐解決方案。結合A 市超算算力網絡部署和遙感數據生產應用支撐實踐,闡述了應用支撐全流程步驟和典型應用場景特點。

當前算力網絡建設還存在較多關鍵技術問題,本文所圍繞的超算互聯網應用支撐僅限于部分應用業務計算和數據流轉場景,距離通用型應用支撐還存在較大差距,展望未來,算力網絡演進將主要聚焦以應用為中心的“SRv6+SD-WAN+SDN”網絡融合方案和以云計算框架為基礎的分布式云資源統管和調度2個方面。

猜你喜歡
算力結點調度
多方求解智能時代算力挑戰
這個第二不一般
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
一種基于負載均衡的Kubernetes調度改進算法
虛擬機實時遷移調度算法
Ladyzhenskaya流體力學方程組的確定模與確定結點個數估計
基于Raspberry PI為結點的天氣云測量網絡實現
SVC的RTP封裝及其在NS2包調度中的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合