?

數據中心服務器功耗模型研究進展

2023-09-21 15:48岳天亮苗益川
智能計算機與應用 2023年9期
關鍵詞:冪函數功耗內存

岳天亮, 朱 兵, 苗益川, 呂 麗

(貴州大學電氣工程學院, 貴陽 550025)

0 引 言

數據中心不僅是實現多種數字化技術的重要基石,更是推動國家經濟轉型升級的重要動力。 伴隨全球數據中心產業的快速發展,中國數據中心產業發展也在不斷提升,同時數據中心能源和運營損耗也日漸增加。 2019 年,中國云計算整體市場規模達1 334億元,增速38.6%[1];2019 年中國大數據產業規模為5 397 億元,預計到2022 年大數據產業規模將突破萬億,未來將成為世界第一數據資源大國和全球數據中心[2];2018 年數據中心總用電量為1 608.89 億千瓦時,預計到2023 年數據中心總用電量將增長到2 667.92 億千瓦時時,數據中心的電費占數據中心運維總成本60%以上[3]。

數據中心由4 大部分組成:電源設備、冷卻設備、IT 設備和其他輔助組件。 IT 設備和冷卻設備是兩個主要組成部分,約占數據中心總能耗的90%[4]。 典型數據中心的熱流和能流圖如圖1 所示,服務器消耗電力并向熱環境散熱,決定了制冷系統的制冷負荷,進而影響制冷設備的用電量。 而改變冷卻系統運行參數會影響服務器的進氣溫度和氣流,影響服務器的能耗。 因此,服務器是數據中心熱流和能流的基本單元,IT 設備和冷卻設備因熱環境耦合。 由于設備效率的不斷提高,IT 設備和制冷設備的節能將獲得最大化,能源轉換潛力體現在能源和熱管理上。 數據中心執行這兩個管理功能的必要條件是準確的服務器功耗模型。 功耗模型有助于識別優化機會和預測決策的后果,并益于更有效的管理/控制,可最大程度地節約能源。 此外,服務器功耗模型在數據中心冷卻系統設計和電力趨勢預測中發揮著重要作用。

圖1 典型數據中心的熱流和能流圖Fig. 1 Heat and energy flow diagram of a typical data center

1 服務器介紹

服務器是在網絡環境中提供計算能力并運行軟件應用程序的特定IT 設備。 服務器主要構件有:CPU、內存、芯片組、I/O 設備、存儲器、外圍設備、穩壓器、電源和冷卻系統。

1.1 服務器分類

根據服務器的配置和結構,分為機架式、刀片式和塔式。 機架式服務器在數據中心應用最為廣泛,安裝在標準的19 英寸機柜內,有1U(1U =1.75 英寸)、2U、4U 等規格;刀片服務器擁有可插入標準機架機箱的“刀片”單元,每個“刀片”均有一塊帶有處理器、內存和I/O 設備的板;塔式服務器外形與結構和普通電腦主機類似。 根據應用場景,服務器可以分為數據庫、文件、郵件、打印、網絡、游戲和應用等服務器。

1.2 服務器工作負載

基于工作負載,可將服務器分為科學研究、數據分析、業務處理、云數據、可視化和音頻、通信和存儲7 大類[5]。 各類服務器的工作負載類型見表1,各工作負載類型下的IT 設備硬件利用率見表2。

表1 服務器常見工作負載類型Tab. 1 Common types of server workloads

表2 常見工作負載類型下IT 硬件的利用率Tab. 2 Utilization of IT hardware for common workload types

常見工作負載機架功耗趨勢如圖2 所示,可知科學研究、數據分析工作負載機架功耗增長較快,這兩種負載對服務器CPU 的利用率高,且隨著CPU多核、超頻、超線程的發展,機架功耗增加較快。 通信及存儲工作負載對服務器硬盤和I/O 利用率高,而硬盤和I/O 的功耗增長緩慢,所以機架功耗增長緩慢。 不同類型的工作負載,其功耗趨勢不同,對服務器各硬件的利用程度不同,故可根據服務器工作負載的類型預測服務器的功耗。

圖2 常見工作負載機架功耗趨勢Fig. 2 Common workload rack power trend

2 服務器功耗模型

建立服務器功耗模型的目的:

(1)估計電源管理的潛力;

(2)預測服務器或數據中心的能耗;

(3)平衡數據中心的需求:即降低能耗和提供高可靠性。 現有功耗模型涵蓋了物理機和虛擬機,可分為相加模型、動態模型和其他模型。

2.1 相加模型

服務器的功耗組成及占比如圖3 所示,其中CPU 在服務器功耗中的占比最大,其次是外圍設備、電源、內存、主板、硬盤/存儲以及冷卻風扇。 可將各部分功耗直接相加來建立服務器功耗模型,如式(1)所示。

圖3 服務器功耗構成Fig. 3 Server power consumption composition

其中,PCPU、Pmemory、Pdisk和PI/O分別代表CPU、內存、存儲和I/O 設備功耗。

各元件均有其自身的功耗模型,不同服務器的配置不同,其主要耗能元件及其占比會略有不同,如圖4 所示。

圖4 不同服務器配置下各組件的功耗占比Fig. 4 Power consumption ratio of components in different server configurations

相加模型將數據中心服務器在運行過程中產生的功耗總量表示為各子系統的能耗總和。 一些學者認為CPU、內存、硬盤、網絡和風扇是服務器功耗模型的主要組成部分[6-7],其它元件的功耗與CPU 和內存相比較小,或與CPU 功耗關聯性較好,即CPU和內存是主要組成部分;所以服務器功耗模型是CPU、內存和其他設備的函數[8]

2.2 動態模型

服務器并不總是處于活動狀態,因此服務器功耗分為:

(1)靜態功耗(Pbase),即空閑功耗,包括CPU、內存、I/O 等部件在空閑狀態下的功耗,取固定值;

(2)動態功耗(Pactive),即服務器功耗取決于工作負載,服務器功耗與服務器運行狀態下的負載處理量、CPU 利用率、任務處理時間和類型等變量相關。

相加模型表示為靜態功耗和動態功耗之和[9-10],如式(2)所示。

其中,PΔ是修正系數(固定值或表達式)。

將Pbase視為常數,并將Pactive表示為函數(線性函數、冪函數、高次多項式等)。 動態模型可分為回歸模型、冪函數模型和多項式模型。

從發熱和散熱角度出發,服務器包括IT 組件和散熱組件,服務器功耗模型轉換為IT 組件和散熱組件總和[11-12]。

2.2.1 回歸模型

服務器功耗回歸模型考慮了服務器的功能單元的功耗和性能計數器之間的相關性,捕獲了固定或空閑功耗以及隨著服務器功能單元活動的變化而變化的動態功耗。 因此,基于回歸的服務器功耗模型也被稱為“冪律模型”。 由于回歸模型的簡單和可解釋,研究中大多采用回歸模型,但服務器工作負載的波動頻繁,這些模型不適合跟蹤云計算中的服務器功耗[13]。 Fan 等[14]分析了回歸模型的精度,認為回歸模型可以很好地預測動態功耗,誤差低于5%。然而,非線性模型的誤差在1%左右,具體取決于應用對象。 本文將回歸模型分為:簡單回歸模型、多元回歸模型和非線性回歸模型。

2.2.1.1 簡單回歸模型

功耗和捕捉CPU 活動性能計數器之間的相關性于2000 年首次提出。 基于此,Fan 等[14]認為服務器的整體功耗位于空閑功耗與峰值功耗區間內時,其值與CPU 利用率成一元線性關系,服務器功耗Pserver如式(3)所示,且該模型得到了實驗驗證。 考慮進風溫度對服務器功耗的影響,Wang[15]等人用進風溫度的二階多項式對功耗模型進行了修正。

其中,Pidle為服務器的靜態功耗(W);Pactive為服務器的峰值功耗(W);u 為服務器利用率。

Kavanagh 等[16]提出一個類似基于云系統與虛擬機的模型,針對不同應用場景使用不同的自變量,能源用戶總功耗Px,如式(4)所示:

其中,Hidle和Hactive分別為主機測量的靜態功耗與動態功耗;為指定的能源用戶的CPU利用率;與分別為主機上能源用戶的計數和指定主機上能源用戶集成員的CPU 利用率。

Rezaei-Mayahi 等[17]采用簡單回歸模型,考慮CPU 溫度和進氣溫度的差異,研究環境溫度對功耗的負面影響,假設CPU 溫度與服務器利用率呈線性相關,并分析了入口溫度與功率增量之間的關系,并反映在公式(2)的增量中。

2.2.1.2 多元回歸模型

公式(2)和公式(3)所示簡單回歸模型基于CPU 利用率,而處理角度不同,簡單回歸模型能夠對CPU 密集型工作負載產生的能耗進行合理的預測,但面對I/O 和內存密集型應用程序引起的功耗力不從心。 一些研究在服務器能耗回歸模型中考慮兩個及以上影響因素作為自變量,對多元回歸模型進行研究。

Alan 等[18]提出CPU 利用率、內存讀取速度、磁盤和網絡利用率函數的功耗模型,其擬合結果證明誤差不超過6%,服務器的功耗Pserver(W) 如式(5)所示:

其中,ucpu、umem、udisk、unet分別為CPU、內存、磁盤以及網絡的利用率。

Lent[19]假設CPU、磁盤和I/O 端口等子系統在各自的利用率方面呈現線性功耗。 Witkowski 等[20]則將CPU 溫度添加到功耗模型中。

(3)非線性模型

Fan 等[14]提出了一個包括校準參數r的非線性模型,該參數使平方誤差最小,如式(6)所示:

其中,r是需要通過實驗獲得的平方誤差最小的校準參數,且r取決于服務器類型;Pmax為服務器的峰值功耗;Pu為服務器功耗。

在預測服務器功耗方面,式(6)中的模型比回歸模型執行得更好。

2.2.2 冪函數模型

冪函數模型基于服務器動態電壓頻率縮放(Dynamic Voltage Frequency Scaling,DVFS)技術,考慮CPU 運行頻率(f)、工作電壓(V)對服務器能耗影響而建立的模型。 借助DVFS 技術,根據處理的工作負載強度對CPU 工作電壓和工作頻率靈活調節。 對于某些型號,CPU 是能耗模型的主要部分,在頻率f下工作,動態功耗與V2×f 成比例,當電壓降低時,頻率也降低。 所有其他組件(CPU 除外)的功耗是獨立的,因此,服務器的功耗可以表示為與工作頻率的立方關系[21]。 此外,在云計算中,考慮能源成本和性能之間的權衡,將服務器利用率和服務率視為模型的主要組成部分。 然而,一些研究將服務器利用率作為表征功率模型的變量,且服務器功耗與CPU 利用率之間存在冪函數關系[22]。

2.2.3 多項式模型

針對一元線性回歸模型和冪函數模型在預測非CPU 密集型工作負載的服務器功耗時的不準確性問題,Zhang 等[23]使用高次多項式模型來擬合服務器功耗,發現三次多項式具有最佳擬合度。 Lin 等人[24]提出了服務器能耗與服務器利用率二階多項式之間的數學模型。

2.3 其他模型

相加模型、動態模型是廣泛使用的功耗模型,其他模型也得到了發展。 BAI 等[25]使用服務器利用率和芯片溫度的乘積來表示功耗。 有學者還提出了考慮多核CPU、活動虛擬機數量、服務器相關變量以及CPU 利用率或CPU 平均溫度與進風溫度的功耗模型[26-27]。

數據中心IT 設備功耗與服務器處理的工作負載密切相關。 負載處理量增加,服務器功耗增加,散熱量上升,制冷系統出力增加,數據中心整體能耗增加。 量化地研究工作負載靈活調度潛力為數據中心帶來用電調節空間,有助于實現數據中心電力負荷的精準調控,關鍵環節建立工作負載處理過程與服務器能耗之間的映射模型,映射模型主要考慮了工作負載的到達時間、處理速率和數量等影響因素[28-29]。

近年來,云計算技術為優化和控制數據中心的能耗提供了新的方法手段,不少學者對“云數據中心”能耗進行研究。 許多學者利用計算機領域傳統的負載均衡和調度、資源分配等基礎或改進算法,嵌入各類能耗模型,并結合相關云計算平臺調度系統對算法效果進行評估[30-31]。 此外,機器學習方法廣泛用于云數據中心的功耗模型[32]。

2.4 功耗模型對比

現有功耗模型中主要變量統計結果如圖5 所示。 可知模型建立考慮最多的因素是CPU,其次是服務器、溫度、內存和負載,網絡和時鐘頻率關注較少。 一些研究已經驗證了模型的準確性。 據統計,相加模型、動態模型的誤差分別小于9%和11%;對于相加模型,大多數研究的誤差小于5%,最壞情況下的錯誤率為10%;對于動態模型,簡單回歸模型、多元回歸模型、冪函數和多項式等模型的誤差一般分別小于4.6%、7%、6%和4%[33]。 Zhang 等[23]比較了線性、二次和三次模型,線性模型的平均誤差大部分在8%以下,平均誤差為2.74%;二次模型平均誤差2.04%;三次多項式平均誤差都在3%以下,大多數平均誤差低于1.5%;發現三次模型可以很好地擬合測量數據。 Lin 等[24]分析了6 種功耗模型之間的誤差, 得出多項式模型的平均誤差最?。?.615%),其次是冪函數模型(2.794%)和二次模型(2.974%);系數固定時,線性和冪函數模型的誤差分別增加到5.918%和8.222%;僅對線性、冪函數和多項式三者比較發現,線性模型最大和最小誤差分別為1.41%和0.07%,冪函數模型(最大1.29%、最小0.04%),多項式模型(最大1.29%、最小0.05%),這表明3 種模型都能準確的反映服務器性能特征。 因此,多項式模型最適合服務器的功耗。

圖5 服務器功耗模型主要變量統計結果Fig. 5 Statistical results of major variables in the server power model

2.5 功耗模型應用

隨著信息通信技術的發展,IT 設備的功率密度和能耗不斷增加,促使冷卻需求和冷卻系統能耗不斷提高。 因此,數據中心熱管理和能源管理需要進一步加強,服務器作為能流和熱流的基本單元,將功耗模型應用于能量預測和管理,以減少服務器和冷卻系統能耗。

2.5.1 數據中心(服務器)能源管理

數據中心各部件的功耗模型用于預測各負載段功耗,優化數據中心整體能耗。 利用數據中心負載部分的功耗模型,應用不同的功耗優化方法,以確保數據中心的能源效率和成本效益[34]。 為了減少服務器能耗,研究人員通過考慮最佳熱環境,提出基于服務器電源模型的節能控制策略。 Berezovskaya等[35]提出了一個用于任意數據中心建模的模塊化工具箱,并用該工具箱搭建SICS ICE 數據中心模塊1 的模型,對比了模塊1 中所有SEE 冷卻器在兩種策略下的能耗發現,當前策略消耗2.5 kWh,而新策略消耗0.785 7 kWh,節省1.717 7 kWh,12 h 節能率為68.6%;Zapater 等[36]分析了計算能力、溫度、泄漏和冷卻功率之間的關系,并提出了一種冷卻管理策略,通過設置運行期間的最佳風扇速度來最小化服務器能耗。 整個集群在泄漏和風扇功率方面的節能將隨著環境溫度的升高而增加,在32 ℃時最大可節省10.3%。

服務器功耗模型可在操作期間指導服務器電源開/關、工作負載分配和虛擬化。 服務器的“空閑”在實踐中意味:

(1)服務器必須對新工作的請求立即做出反應;

(2)服務器允許短暫暫停;

(3)服務器有足夠的時間喚醒[37]。

虛擬化技術允許共享服務器、存儲和網絡設備,以提高資源利用率[38];在虛擬化中,應用程序能很容易地從一個物理服務器遷移到另一個。 管理人員將工作負載分配到指定服務器,其他服務器通過任務需求來關閉電源或進入睡眠模式。 Noguchi 和Nishi[39]比較了服務器容量和傳入請求總和容量,以確定是否啟動服務器;Li 等[40]為了改進傳統的性能-能源模型,最大限度地減少云數據中心的能源消耗,提出了一種節能和QoS 感知(EEQoS)的虛擬資源整合模型,并將EEQoS 模型與粒子群優化算法相結合,通過設置每個QoS 值功耗為目標函數來整合數據中心的虛擬資源,與傳統模型相比,該模型平均減少了27.2%響應時間、31.4%成本和40.5%SLA 違例率,并平均提高了13.5%吞吐量和增加了不到3.8%能耗;Arshad[41]等提出一個基于虛擬機功耗模型整合概念的能效啟發式新算法,使用虛擬機整合來最小化云中高能耗,在虛擬機遷移、遷移導致的性能下降、服務水平協議違規和執行時間方面與最先進的技術相比有了顯著改進。 對數據中心(服務器)的電源/能量管理進行了一些嘗試,但隨著節能要求的不斷提高,基于功耗模型的精細化控制/管理技術成為未來研究的重要方向。

2.5.2 冷卻系統負荷計算

制冷供需匹配是制冷系統節能的關鍵。 在制冷系統設計中,制冷量取決于數據中心機房的制冷需求,并通過各種參數來計算總冷卻負荷,其中IT 設備散熱是主要部分,設計人員經常將IT 設備的銘牌功率作為其散熱量。 根據SPEC 公司提供的數據,服務器平均充分利用功率僅占銘牌功率的50%,且服務器并非始終以峰值功率運行,數據中心的熱負荷被顯著高估,冷卻設備被設計為超大尺寸,電力系統冗余過多。 Cheung 等[42]使用簡單回歸模型對數據中心功耗建模,并利用2007 年至2017 年間各個制造商提交給SPECpower2008 數據庫的491 個數據點,通過線性回歸估計服務器的最大和空閑功耗,同時將模型與一個常用的建筑模擬程序進行聯合模擬,以亞熱帶地區一個典型的地下室設有數據中心的大型辦公室為對象進行能耗模擬,結果表明該模型能夠合理估算服務器、網絡和配電負荷,顯示了數據中心的運行狀態對其運行效率的影響,包括冷卻系統的效率。

此外,服務器功耗模型還用于冷卻控制或氣流管理,以實現節能。 Turk 等[43]提出了冷卻控制策略,通過設置每個機架的入口溫度和氣流,以基于動態模型以及組合冷卻和工作負載管理來最小化數據中心的功率,該策略在冬季節電1.2%,夏季節電14.4%;Noguchi 和Nishi[44]提出一種主動控制器快門,防止當服務器溫度低于40 ℃時冷空氣通過空閑或關閉的服務器泄漏;Ham[11]等應用模型,考慮熱特性以模擬每小時的冷卻能耗,發現當送風溫度高于19℃時,風扇能耗增加,冷卻能耗也增加;Athavale[45]等開發了基于遺傳算法的靜態和動態框架,用于優化數據中心消耗的冷卻能量,在IT 負載分布粒度的3 個級別(機房、機架和行)中,機架級分布消耗的冷卻功率最小,7.5 h 的動態優化測試案例表明,冷卻能耗降低了21%~50%。

2.5.3 討論

功耗模型的應用中,準確和簡單是主要要求,但兩者不兼容,對功耗模型的應用有負面作用。 若模型要求準確性,則需要盡可能多的考慮影響服務器功耗的因素,但只考慮服務器主要部件(如CPU 和內存)的功耗,模型的準確度較差。 例如,使用服務器的簡單回歸功耗模型來獲得IT 負載的功耗,用于進一步評估數據中心內部電源調節系統(IPCS)中的可靠性。 Zhang 等[23]使用服務器功耗的復雜高階回歸模型,通過在云界面中調度任務來提高服務器的電源效率,除了簡單之外,還專注于模型的準確性,在使用現有模型預測或評估服務器或數據中心的功耗/能耗時,考察適用性并驗證準確性。

3 結束語

服務器功耗模型在數據中心熱管理和能源管理中起著至關重要的作用。 本文回顧了服務器的分類和負載類型,并對現有的服務器功耗模型進行了總結和分類。 此外,作者研究了這些模型的應用場景,經分析得出以下結論:

(1)數據中心常用的是機架式服務器,不同的服務器組件配置和工作負載意味著工作重心的差異,會導致不一樣的能耗變化。 現有模型的應用和新模型的開發,需要考慮這些變化和服務器的工作負載。

(2)現有的功耗模型可分為相加模型、動態模型和其他模型;而動態模型可進一步分為回歸模型、冪函數模型和多項式模型。 CPU 是功耗模型中考慮最多的變量,其次是服務器、溫度、內存和工作負載。 但這些模型都是針對固定環境下的服務器,大部分都適用于單核系統。 考慮到簡單性、便利性和準確性,無論是在服務器、系統還是房間級別,線性回歸和多項式模型都是最佳選擇,誤差分別小于7%和4%。 此外,建立模型需考慮節能技術和進氣溫度,并應使用分段函數。

(3)建立功耗模型是為了估計能源管理的潛力,預測服務器或數據中心的功耗,平衡能源消耗和可靠性。 這些模型已經在IT 領域和制冷領域的一些方案中得到應用,但還需要更多的努力。 服務器功耗模型可進行準確的冷卻負荷計算并避免過多的冗余,但基于模型的能源和熱感知管理可實現最佳的整體節能效果。

猜你喜歡
冪函數功耗內存
基于任務映射的暗硅芯片功耗預算方法
冪函數、指數函數、對數函數(2)
冪函數、指數函數、對數函數(1)
外部高速緩存與非易失內存結合的混合內存體系結構特性評測
冪函數、指數函數、對數函數(1)
“春夏秋冬”的內存
揭開GPU功耗的面紗
看圖說話,揭開冪函數的廬山真面目
數字電路功耗的分析及優化
IGBT模型優化及其在Buck變換器中的功耗分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合