一種可解釋的云平臺任務終止狀態預測方法

2024-03-23 08:04劉春紅李為麗王敬雄張俊娜

計算機研究與發展 2024年3期

劉春紅李為麗焦潔王敬雄張俊娜

1 （河南師范大學計算機與信息工程學院河南新鄉 453007）

2 （智慧商務與物聯網技術河南省工程實驗室（河南師范大學）河南新鄉 453007）

近年來，機器學習模型在眾多領域中都得到了廣泛的應用，并且表現出很好的性能.然而模型的黑盒特性，使其缺乏透明度、可解釋性和可信賴性，如果不能從人類的角度對模型決策進行理解，尋找更好的模型最終將淪為試錯法.例如在云平臺中，對任務的終止狀態進行預測時，需要很高的透明度和可信度，這意味著我們需要能夠解釋模型的決定、預測和證明它們的可靠性.這需要更好的可解釋性，意味著我們需要理解算法背后的機制[1].

在分布式云平臺的調度管理中，用戶的應用請求以作業的形式提交到數據中心，每個作業由調度器分配計算和存儲資源，作業的一次調度運行稱為任務.作業包含1 個或多個任務.其中，任務終止狀態包含驅逐、失敗、完成和被殺[2].Jassas 等人[3]提出了一種能夠在早期發現失敗作業的失敗預測框架，該框架的優勢是減少資源浪費，提高云應用的性能.Gao 等人[4]提出了一種基于多層雙向長短期記憶(Bi-LSTM)的失敗預測算法來識別云中的任務和作業失敗，提高以往基于機器學習和深度學習方法的失敗預測精度.現有任務終止狀態預測模型在預測精度上有很大的提高，但是模型缺乏可解釋性，人們無法確定模型產生的輸出是否符合常理，所以即使模型產生較好的結果，人們依然無法完全信任模型.

為了克服模型缺乏可解釋性的限制，必須考慮用于建模的輸入變量的可解釋性，即特征選擇的可解釋性，以及模型預測的可解釋性.由于模型內部復雜的結構，會導致輸入特征和預測結果之間的因果關系難以理解，所以模型是不可解釋的.基于此，可以通過對特征進行統計分析，以建立特征和輸出之間的因果關系，從而實現模型內部的透明化[5-10].特征統計分析方法是指對模型的特征進行匯總分析或者顯著性可視化，對混亂的特征進行統計分析，計算不同特征對模型輸出的貢獻，并對顯著特征進行可視化.該方法是基于特征對模型進行解釋，特征作為可解釋性和模型之間的橋梁[11].鑒于特征選擇對模型可解釋性的作用，故研究基于樹模型探討其在任務終止狀態預測研究中的實用性.

基于樹的機器學習模型是當今最流行的非線性模型.隨機森林、梯度增強樹、決策樹等樹模型被用于金融、醫學、生物學、客戶保留、廣告、供應鏈管理、制造、公共衛生和許多其他領域.基于輸入特征集做出預測，為每個輸入特征分配信用數字來度量局部解釋.如圖1 所示，在任務終止狀態預測中，將一組相同的特征變量分別輸入到黑盒模型和白盒模型，“白盒”局部解釋可以通過為每個特征分配一個特征重要性系數來表示特征對于模型產生某種預測結果的影響程度.在保證模型預測性能的同時，提高模型的可解釋性，其中的可解釋性意味著我們可以理解模型如何使用輸入特征來表示預測[12].

圖1 局部解釋示意圖Fig.1 Illustration of local explanation

然而，盡管樹的全局解釋方法有豐富的歷史，總結了輸入特征對整個模型的影響，但是人們對解釋輸入特征對個體預測影響的局部解釋的關注較少.

目前有3 種比較常用的方法用來解釋樹模型的個體預測，即局部解釋方法：1）報告決策路徑；2）一個未發表的啟發式方法，為每個輸入特性分配積分；3）各種與模型無關的方法，需要為每種解釋多次執行模型[12].這3 種方法有3 個局限性：1）簡單地報告預測的決策路徑對大多數模型都是沒有幫助的，特別是對那些基于多棵樹的模型；2）行為啟發式信用分配方法還沒有被仔細分析，對基于樹的深度改變特征的影響有強烈的偏差；3）由于模型不可知的方法依賴于任意函數的事后建模，它們可能速度很慢，并存在抽樣可變性.

樹解釋器，是一種新的用于樹的局部解釋方法，它使得最優局部解釋的易處理計算成為可能，由博弈論的理想性質定義[13].研究借助任務終止狀態預測模型，選擇出最佳特征子集，并對進一步的模型可解釋性進行研究.為了解決當前樹集成方法存在的不一致問題，即當一個特征的真正影響實際增加時，它們會降低該特征的重要性，我們使用博弈論的最新應用，將樹集成特征屬性方法與SHAP 方法相結合，使用SHAP 值來衡量特征的重要性[14]，將各特征對輸出的影響可視化.通過結合許多局部解釋，可以表示任務終止預測全局結構，同時保持對原始模型的局部忠實性，任務終止狀態預測可解釋性全局結構圖如圖2 所示.

圖2 任務終止狀態預測可解釋性架構Fig.2 Architecture of the task termination state prediction interpretability

云平臺中，對任務的終止狀態進行預測，對預測結果采取相應的調度措施，將失敗的作業/任務提前終止，以確保良好的時間性能，并大量降低系統的資源浪費，提高資源利用率.通過解釋作業/任務的系統屬性、動態負載變化情況等因素與任務終止狀態之間的關系，可視化負載特征對預測結果的貢獻度，選擇重要特征，進而提高任務終止狀態預測模型的可解釋性，可以更好地調度任務.

本文的貢獻包括2 個方面：

1) 提出了一種可解釋性強的云平臺任務終止狀態預測模型，研究負載特征與任務不同終止狀態之間的關系.

2) 通過一系列直觀的可視化結果，分析負載特征如何影響模型對任務不同終止狀態的預測，探索特征與任務終止狀態之間的映射機理.

本文使用谷歌數據集進行實驗，在保證任務終止狀態預測模型性能的同時，打破模型的黑盒特性，提高可解釋性.在下文中，我們將討論為什么樹形模型在許多情況下都是最合適的模型，因為它們的準確性及其可解釋性（1.2節），將計算精確SHAP 值的復雜度從降至，分析全局特征重要性（2.2 節），討論對基于樹的模型進行更好的局部解釋的必要性（2.3 節和2.4 節），擴展了局部解釋來捕獲交互效應（2.5 節），并找出特征與任務終止狀態之間的映射機理（2.6 節）.

1 可解釋的任務終止狀態預測方法

1.1 特征獲取

Google 日志中包含任務各種資源的實際使用情況，其能基本準確反映出任務在實際運行過程中消耗的資源，但在早期運行過程中，任務的數據所含信息量很少，所以需要對數據進行額外的信息補償，以彌補模型預測中動態信息的不足，動態信息主要與任務的動態屬性有關.在早期階段，任務的運行狀態數據較少，例如樣本CPU 使用率、分配的內存使用率、未映射的頁面高速緩存內存使用率、平均磁盤I/O 時間以及每個周期指令(CPI) 等動態屬性.只利用單個任務數據構建預測模型，限制了預測性能的提高.同時，部分作業之間具有相似資源消耗周期性變化的特點，引入更多的作業之間的相似信息以增加預測模型的動態信息[15].

加入任務的動態信息，最終選擇用于任務終止狀態預測的 59 個特征[16]，其包含有 5 個靜態特征和54 個動態特征.特征描述如表1 所示，其中靜態特征指不隨著時間戳的變化而改變的特征，動態特征指隨著時間戳的變化而改變的特征.

Table 1 Static and Dynamic Characteristics of Tasks表1 任務的靜態和動態特征

為了描述方便，本文使用英文特征名簡寫表示表1 中的中文特征名稱：任務采樣CPU 使用率最大值max_cpu，任務規范內存使用的最大值max_dsik，任務分配內存使用的最大值max_fendsik，任務分映射頁面緩存的內存使用的最大值max_chachdsik，任務平均disk 的I/O 時間的最大值max_dsikOI，任務平均使用的本地磁盤空間的最大值max_localdsik，任務每個指令存儲器訪問的最大值max_instructiondsik，任務每個指令周期的最大值max_perInstructiondsik，任務平均CPU 的使用率的最大值max_Mcpu.對于均值（mean）、峰值（pv）、標準差（sd）、均方根（msr）、方根幅值（rpv）的命名同理.

1.2 基于SHAP 的特征分析

樹解釋器可以通過平均許多局部解釋作為一種全局方法[13].如果對數據集中的所有樣本都采用樹解釋器，那么就可以得到一個特征重要性的全局度量，它不會受到經典增益方法不一致性的影響，與排列方法不同，它不會錯過高階交互效應.基于樹解釋器的全局特征歸因，與目前最先進的方法相比，在存在交互作用時具有更高的檢測重要特征的能力，這對于基于樹集合的特征選擇任務具有重要意義.

為了更好地理解模型的輸出，可以從特征的角度出發對模型進行解釋，采用SHAP 可視化特征對終止狀態的重要性，利用變量重要性結合SHAP 值來解釋XGBoost 模型，對任務終止狀態預測模型建模后的結果進行解釋.SHAP 值用于特征的重要性，被定義為觀察每個輸入特征的值對模型輸出順序的影響，并在所有可能的特征排序上取平均值[2].對于所有可能的排序，我們在模型輸出的條件期望中每次引入一個特征，然后將期望中的變化歸因于所引入的特性.

SHAP 交互值由一個特征屬性矩陣（對對角線的主要影響和對非對角線的交互影響）組成，并具有類似于SHAP 值的唯一性保證.通過單獨考慮單個模型預測的主要影響和交互效應，樹解釋可以發現可能被遺漏的重要模式.

集成樹模型做分類任務時，模型輸出的是一個概率值.SHAP 實際是將輸出值歸因到每一個特征的SHAP 值上，依此來衡量特征對最終輸出值的影響.SHAP 屬于加性特征歸因方法，其表示如式（1）所示：

其中g是解釋模型；M是輸入特征的數量；表示在所有的M個特征中，有多少特征是該樣本所在的決策路徑中包含的特征，對于某個樣本，如果特征k不在其決策路徑中，那么對應特征的SHAP 值為0，即φk=0，表示該特征不會對樣本產生歸因，對于最終預測值沒有貢獻.

在樹模型中，對于某個特征j，需要針對所有可能的特征組合（包括不同順序）計算SHAP 值，然后進行加權求和，如式（2）所示：

其中N為訓練集中所有特征的集合；M為特征數量；S是模型中使用的特征的子集；fx(S)表達的是只利用特征集合S，根據樹的結構、葉子節點的取值、內部節點的Cover 值等，計算出樣本的平均值；fx(S∪{i})表達的是在特征集合的基礎上，加上特征i，然后再根據樹的結構、葉子節點的取值、內部節點的Cover值等，計算出樣本的平均值；是對應特征子集S下，對于上述包含特征i和不包含特征i的情況下，樣本取值之差的權重.

正如Lundberg 等人[12]所提到的，這類附加特征屬性方法的一個重要屬性是，該類方法中存在一個唯一的解，且該解具有3 個期望的屬性：局部精確性、一致性和缺失性.局部精確性表示特征歸因的總和等于我們要解釋的模型的輸出；一致性表明，更改模型以使某個特性對模型產生更大的影響，永遠不會減少分配給該特征的屬性的總和等于我們試圖解釋的函數的輸出；缺失性表示已經缺失的特征（例如不具有重要性.

如果忽略計算復雜度，那么可以通過估計E[f(x)|xS]計算樹的SHAP 值，然后使用式（2），其中fx(S)=E[f(x)|xS].E[f(x)|xS]是輸入特征的子集S的條件期望值，圖3 解釋了如何從E[f(x)]得到預測值，SHAP 值將每個特征的歸因值賦值為在調整該特征時模型預測的預期變化，將模型f對于樣本x1=a1,x2=a2,x3=a3,x4=a4的預測解釋為引入條件期望的每個特征的影響 φj的總和.

圖3 SHAP 加和解釋原理Fig.3 Principle of SHAP addition explanation

1.3 融合SHAP 的可解釋任務終止狀態預測算法

樹解釋器用于任務終止狀態可解釋性研究中，其背后的主要算法可以精確地計算SHAP 值，從而保證一致的解釋.在低階多項式時間內精確計算式（2），其中條件期望函數fx是使用樹遍歷（算法1）來定義的.通過直接計算SHAP 值，我們能夠保證解釋總是一致的和局部精確的.

算法1.估計E[f(x)|xS].

算法2.Tree SHAP.

傳統的特征重要性方法可以直觀地反映出特征的重要性，但是依然無法得出特征與模型預測結果之間的關系，SHAP 屬于加性特征歸因方法，將每個特征都視為貢獻者，計算每個特征的貢獻值，可以反映出每個特征對于最終預測結果的影響，增加任務終止狀態預測模型的可解釋性.使用XGBoost 模型對任務終止狀態進行預測，從特征的角度出發，以SHAP 值來衡量模型預測中特征的重要性，并對其結果進行直觀的可視化.使用SHAP 總結圖可視化特征的變化如何影響任務的不同終止狀態，進而找出特征與任務終止狀態之間的映射機理.

2 實驗及結果分析

2.1 數據集和評價指標

本文以 Google 云平臺的計算調度系統 Borg[17]為研究對象，利用 Google 公開的工作負載監控日志數據集①https://github.com/google/cluster-data進行驗證，該日志有1 個月的監控數據.驗證實驗篩選了Google 集群日志前3 天的數據進行實驗.該樣本數據集中共有10 473 個job，包含1 665 280個任務.為了更準確地對云平臺任務不同終止狀態的影響因素進行更直觀的可視化，需要進一步對任務的終止狀態進行細分，即不僅預測任務是成功（finish）還是失敗，還需要進一步細分失敗是驅逐（evict）、失?。╢ail）或被殺（kill）的狀態，從而采取提前終止或繼續運行等不同的調度策略.

由于Google 云平臺數據集是從真實環境中采集獲取，同時數據集存在含有部分噪聲和缺失值等問題，所以需要對數據進行清洗預處理.實驗篩選了Google 集群日志前3 天的數據，處理清洗過程參考文獻[17].

多分類評價指標分為宏平均(macro-average)和微平均(micro-average)，以召回率(recall)為例，Macro-R表示宏平均的召回率，Micro-R表示微平均的召回率.針對極度不均衡的多分類來說，Macro-R受樣本數量少的類別影響較大，比Micro-R更合理[15].所以本文在測試數據集上，選擇宏平均來度量分類器性能，更側重對小類判別的有效性，本文使用的評價指標均使用宏平均的方法進行計算.

Kappa 評價指標k可以用來進行多分類模型準確度的評估，k的取值范圍是[-1,1]，實際應用中一般k∈[0,1]，與ROC曲線中一般不會出現下凸形曲線的原理類似.k的值越高，則代表模型實現的分類準確度越高.

海明距離用來衡量預測標簽與真實標簽之間的距離，取值在0～1 之間.海明距離為0 說明預測結果與真實結果完全相同，海明距離為1 說明模型與我們想要的結果完全背道而馳.

各個多分類各評價指標的計算如式（3）～（6）所示.其中Macro-R表示召回率的宏平均；召回率表示任務樣本中有多少運行成功的樣本被正確預測；Macro-P表示準確率的宏平均；Macro-F1 表示F1 的宏平均；k表示Kappa 系數，式（6）中po是總體精度，pe是偶然一致性誤差.

實驗設計為2 組： 1）特征重要性的可視化，使用特征重要性圖表示4 種不同的任務終止狀態的特征重要性； 2）特征對模型輸出影響的可視化，使用個體樣本力圖、多個樣本力圖、部分相關圖、SHAP 總結圖可視化特征如何影響任務的不同終止狀態.

2.2 特征重要性分析

繪制樹集合模型中特征的影響通常是用條形圖來表示全局特征重要性，或用部分相關性圖來表示單個特征的影響.然而，由于SHAP 值是個性化的特征屬性，對于每個預測都是唯一的，因此它能夠實現新的、更豐富的視覺表示.

取每個特征的SHAP 值絕對值的平均值作為該特征的重要性，并進行降序排序，由于任務有多種終止狀態，得到的結果是堆疊的條形圖，基于XGBoost模型的20 個重要變量的排序結果如圖4 所示.

圖4 特征重要性圖Fig.4 Feature importance map

從圖4 可以看到，在選出的20 個重要特征中，finish 類不使用sd_instructiondisk，pv_cpu，sd_cpu，max_fendisk等特征；kill 類不使用pv_Mcpu，sd_cpu，sd_Mcpu，rpv_chachdisk，mean_cpu這些特征；fail 類不使用pv_Mcpu，rpv_chachdisk，rpv_chachdisk，pv_disk這些特征；evict 類不使用pv_disk，pv_Mcpu，sd_instructiondisk，pv_chachdisk等特征.

2.3 對單個樣本的解釋

對于正確分類的樣本，通過單個樣本的力圖，可以得知模型預測值的高低是如何造成的、由哪些特征造成的.如圖5 所示，模型predict_proba值為0.91，代表當前樣本的SHAP 值的輸出值，基值為0.429 8，即全體樣本的平均值，模型作出這樣的結果，主要是受到任務平均CPU 使用率的方根幅值、任務采樣CPU 使用率的方根幅值、任務平均CPU 使用率的均方差、任務采樣CPU 使用率的最大值的影響，這些特征對模型產生正向作用.任務分映射頁面緩存的內存使用的最大值、任務分映射頁面緩存的內存使用的峰值是對模型產生反向作用的特征.

圖5 預測正確的樣本力圖Fig.5 Force plot of prediction correct sample

根據模型的預測結果找出被模型分錯的樣本，對其進行可解釋性分析，查看哪些因素導致樣本被錯誤分類.在測試集中，樣本ID 為2610 的樣本是成功完成的，但是模型將其終止狀態預測為失敗，導致模型這種錯誤預測的原因如圖6 所示，主要受到任務平均CPU 的使用率峰值、任務磁盤空間資源請求、任務每個指令存儲器的訪問峰值、任務分映射頁面緩存的內存使用峰值的影響.

圖6 預測錯誤的樣本力圖Fig.6 Force plot of prediction wrong sample

2.4 對多個樣本的解釋

對多個樣本的預測結果進行可視化，可以將單個樣本的力圖旋轉90°，然后橫向堆疊，得到力圖的變體，這樣我們可以得到對整個數據集的解釋.對于多個樣本的解釋，在生成的力圖中，可以選擇不同的橫縱坐標，實現對模型預測的直觀可視化.從圖7 可以看出，在基于樣本的解釋中，對輸出貢獻正向影響的特征和對輸出貢獻負向影響的特征；x軸是樣本數量，y軸是SHAP 值加總（每個特征的SHAP 值）；左邊紅色扎堆是正向SHAP 增益區, 任務的局部磁盤空間資源請求、優先級對一些樣本是正向增益的.整體來說，圖7 是一個宏觀的了解，將諸多樣本中不同特征對預測結果產生的影響進行可視化.

圖7 預測多個樣本的力圖Fig.7 Force plot of prediction multiple samples

2.5 特征相關圖

特征相關圖表示特定變量或變量組的值固定時模型的預期輸出.固定變量的值是變化的，并繪制出最終的預期模型輸出.繪制一個函數的預期輸出如何隨著我們改變的一個特征而改變，有助于解釋模型如何依賴于該特征.

特征相關圖如圖8 所示，可以更清楚地顯示出特征對于模型輸出的影響，x軸表示特征的取值，y軸表示該特征的SHAP 值，也就是說特征的取值會給模型的輸出帶來變化量.通過繪制數據集中許多任務的這些值，我們可以看到特征的屬性重要性如何隨其值的變化而變化.標準的相關圖僅產生直線，而特征相關圖由于模型中的相互作用而捕捉垂直離差.這些效果可以通過用交互特征的值給每個點著色來可視化.

圖8 特征相關圖Fig.8 Feature dependence plot

對于相關圖中的同一個x值，也就是特征取值相同的樣本，它們的SHAP 值不同.其原因是，該特征和其他特征有著交互效應，相關圖可以自動地選擇與該特征相關的另外一個特征，來表現特征之間的這種交互效應.圖8 右邊是對比的特征，紅色代表相關特征的高分部分，藍色代表相關特征的低分部分.任務分映射頁面緩存的內存使用的峰值的高分部分，對于低任務的CPU 資源請求來說，SHAP 值一般小于0，所以是負面影響.

2.6 特征與終止狀態之間的映射機理

使用SHAP 特征歸因方法實現對特征與任務終止狀態之間關系的解釋，對不同終止狀態預測的特征重要性進行直觀的可視化，根據可視化的結果，分別找出任務終止狀態為完成、被殺、失敗、驅逐的影響因素，并對特征如何影響模型的預測結果進行分析，找出特征與終止狀態之間的映射機理.

特征重要性條形圖給出了訓練數據集中相對重要性的概念，但并不表示特征對模型輸出的影響范圍和分布，也不表示特征的值與其影響的關系.SHAP摘要圖利用個性化的特征屬性來傳達特征重要性的所有方面，同時保持視覺簡潔.

SHAP 值類似回歸系數，有正負之分，也有大小之分，SHAP 值越高，表示在任務終止狀態預測模型中預測為該類的對數的幾率越高，數據集中的每個樣本都在模型中運行，并且為每個特征屬性值創建一個點，因此每個任務在特征的線上獲得一個點，該點由該任務的特征值著色，并垂直堆積以顯示密度.每個點都是一個特征和實例的SHAP 值.

SHAP 概要圖如圖9 所示，其中y軸上的位置由特征決定，x軸上的位置由對應特征的SHAP 值決定.圖9 的右側有一條表示特征值大小的線，顏色從藍色變為紅色，代表特征的值從低到高.如果特征對模型輸出的影響隨著其值的變化而平滑變化，則該顏色也將具有平滑的漸變.重疊點在y軸方向上抖動，因此我們得到每個特征的SHAP 值的分布，這些特征是根據它們的重要性排序的.

圖9 不同任務終止狀態的SHAP 概要圖Fig.9 SHAP summary chart of different task termination states

由圖9(a) 可知，對于終止狀態為finish 的任務，priority這一特征對模型非常重要，而且priority值較大時，SHAP 值小于0，對模型產生負向影響，會降低輸出為finish 的概率.橫向來看，diskrequest這個特征，樣本分布較為分散，具有長長的右尾，對該類的預測產生正向影響.不難理解，在云平臺中，過高優先級的任務需要被優先調度，但在機器資源過度分配時，其資源請求得不到滿足，容易失敗.

由圖9(b) 可知，對于終止狀態為kill 的任務，ramrequest對模型輸出的影響最大，較大的ramrequest，使得SHAP 值大于0，對模型產生正向影響，增加模型產生這種輸出的概率.資源請求值表示在任務運行過程中，各請求被允許使用的最大值，當任務的資源請求超過資源請求值時，該任務可能會被終止或者受到限制.當調度程序在計算機上過度提交資源時，即使任務請求小于限制值，也會出現沒有足夠的資源滿足任務運行時請求的情況，這種情況下，云平臺會殺死1 個或多個低優先級任務.

由圖9(c) 可知，對于終止狀態為fail 的任務，cpurequest，diskrequest對模型輸出的影響較大，對于較小的cpurequest，SHAP 值大于0，增加模型產生這種輸出的概率.在資源請求較少時，任務在運行過程中有很大概率會超過資源請求的界限，導致任務失敗.同時，priority對類fail 的影響也很大，對于較高的priority，SHAP 值大于0，增加模型產生這種輸出的概率，即過高優先級的任務更容易失敗.

由圖9(d) 可知，對于終止狀態為evict 的任務，cpurequest，diskrequest，pv_instructiondisk，rpv_Mcpu，ramrequest對模型輸出的影響較大.當任務的實際需求超過計算機的處理能力時，任務的資源請求得不到滿足，或磁盤所保存的任務數據丟失，都可能會導致任務被驅逐.

通過SHAP 摘要圖，可以直觀清晰地看出任務不同終止狀態的影響因素，以及各個特征是如何影響任務的不同終止狀態的，通過對可視化的結果進行分析，找出特征與終止狀態時間的映射機理.

2.7 任務終止狀態預測模型的選擇

本節分別構建XGBoost、隨機森林、GBDT、樸素貝葉斯、決策樹、k近鄰算法、Adaboost 這7 種任務終止預測模型.由表2 的模型性能評價結果可得，除了樸素貝葉斯模型，其余6 個模型均具有較好的分類性能，其中，XGBoost 模型具有較高的Kappa 值（0.686）、ACC值（0.959 7）、Macro-P值（0.956 4）、Macro-R值（0.957 2）、Macro-F1 值（0.953 1），并且其具有較低的海明距離值（0.057）.綜合考慮各個指標的最優值，最終選擇XGBoost 模型作為任務終止狀態預測模型，該模型計算簡單且易于理解，并且具有較強的可解釋性.

研究結果表明，與已有工作相比，在進行特征選擇和處理的基礎上，本文所提的融合XGBoost 與SHAP 模型的可解釋性方法可以更好地對云平臺中任務的終止狀態進行預測.

3 結束語

大型異構云計算平臺上，使用特征選擇結合模型可解釋性方法，構建易于理解的任務終止狀態預測模型.XGBoost 模型結合SHAP 方法，在保證模型預測性能較好的同時，提高模型的可解釋性.從特征的角度出發，對任務的不同終止狀態進行可解釋性研究，可視化特征與終止狀態之間的關系，對于實驗結果進行了深入分析，找出特征是如何影響不同任務終止狀態的，進而探索出特征與任務終止狀態之間的映射機理，實現對云平臺系統調度決策的優化，提升云平臺的運算性能.未來將繼續研究云邊融合中任務終止狀態可解釋性方面的工作，探索更好的可解釋性方法，并對負載特征與任務終止狀態之間的映射機理進行更加深入的探索，增加本文所提方法的應用范圍.

作者貢獻聲明：劉春紅提出方法思路和實驗方案；李為麗負責完成實驗并撰寫論文；焦潔提出特征選擇意見；王敬雄協助完成實驗；張俊娜提出論文整體的修改意見.