?

能源行業結構化數據質量評估研究

2024-01-16 10:17張克銘路亞俊
河南科技 2023年23期
關鍵詞:能源行業結構化框架

徐 琳 張克銘 鄭 欽 路亞俊 樊 想

(中能融合智慧科技有限公司,北京 100013)

0 引言

隨著“雙碳”目標的提出,政府對能源監管的要求日益加強,為此各城市陸續開始建設能源數據中心,以實現對城市能源的監管[1]。城市能源數據中心逐步接入了能源行業海量數據,能源數據質量評估與修復工作更加重要[2-4]。但因能源采集設備故障、數據傳輸通道故障等,能源行業結構化數據質量依然偏低。

許多學者對能源行業結構化數據質量評估與修復做了大量研究。王躍晟等[5]提出了一種基于Shapelets 的能源數據評估與修復方法,采用能源時間特征矩陣對能源數據進行分析。張凱等[6]提出了一種基于K-means 聚類的能源數據修復方法,采用異常特征K-means 聚類和神經網絡對能源數據進行分析。俞娜燕等[7]提出了一種基于高斯過程回歸的能源數據評估方法,針對高斯過程評估數據質量問題,通過粒子濾波方法對能源數據進行修復。徐飛陽等[8]中,提出了一種基于同步相量的能源數據評估修復方法,對能源數據缺失的產生機理進行分析與錯誤校準。由此可見,能源數據分析與修復方法多樣。但上述方法僅對單類數據進行修復與評估,不能滿足能源數據中心多源異構的海量能源數據評估與修復的需求。

針對能源行業結構化數據質量低、異常數據修復困難的問題,本研究提出了一種能源行業結構化數據質量評估與修復方法。該方法采用Strong-Wang 框架搭建能源行業結構化數據質量評估維度,并引入數據質量改進全生命周期的概念對能源行業結構化數據進行評估與修復。

1 能源行業結構化數據評估框架

本研究所述的能源行業結構化數據質量評估研究框架主要包括構建數據質量評估框架、構建數據質量評估標準和數據質量全生命周期管理三部分內容。

2 能源行業結構化數據評估模型

2.1 構建數據質量評估框架

能源行業結構化數據質量的維度是指能源行業中結構化數據可觀測的特性。Strong-Wang 框架是國際上通用的數據質量評估維度框架,通過內在的數據質量、場景數據質量、表達數據質量、訪問數據質量來描述質量的評估得分[9-10]。因此,本研究采用Strong-Wang框架構建能源行業結構化數據質量評估架構。根據Strong-Wang 框架規則,能源行業結構化數據質量規則類型分為單個數據、多行數據、多列數據、多業務數據四類監測規則。數據質量評估框架如圖1 所示。由圖1 可知,能源行業結構化數據完整性檢測為空值檢測和邏輯檢測;能源行業結構化數據準確性檢查為范圍約束;能源行業結構化數據有效性檢測為格式檢查;能源行業結構化數據及時性檢查為數據采集及時檢查;能源行業結構化數據一致檢查為一致約束、外鍵約束和關聯約束;能源行業結構化數據唯一檢查為主鍵約束檢查。

圖1 能源行業數據質量評估框架

能源行業結構化數據評估規則集合La表示為式(1)。

式中:na為能源行業結構化數據評估規則數量;la1、la2、lana為不同能源行業結構化數據評估規則。

2.2 構建數據質量評估標準

元數據是指描述能源行業結構化數據并為其提供數據質量評估資源的信息數據。元數據可識別能源行業結構化數據的資源,并對其進行質量評價與管理能源行業結構化數據在使用過程中產生的變化,從而實現能源行業結構化數據質量評估資源的有效查找、發現和一體化管理等功能。因此,本研究采用元數據構建數據質量評估標準。

層次分析法(Analytic Hierarchy Process, AHP)是一種能源行業數據結構層次分析方法,該方法將與能源行業結構化數據分析決策相關的數據設定為總體目標,并將總體目標分解成不同的層級。在每個能源行業結構化數據子層級上,將評價標準分解為不同的層次結構,并采用求解能源行業結構化數據矩陣的方法,對每個層級進行定性分析和定量分析,再通過每個層級上增加不同的權重,匯總形成能源行業結構化數據整體的定性分析與定量分析結果[11-13]。

根據表2 構建能源行業結構化數據判斷矩陣B,表示為式(2)。

式中:m、n分別為能源行業結構化數據質量評估判斷矩陣的縱、橫維度;b11、b12、…、b1n為能源行業結構化數據橫維度的比較結果;bm1、bm2…、bmn為能源行業結構化數據縱維度的比較結果。

計算能源行業結構化數據判斷矩陣各行的向量平方根,并進行歸一化處理,得到能源行業結構化數據評價權重W,表示為式(3)。

式中:nd為能源行業結構化數據指標權重的數量;wi為不同能源行業結構化數據評估指標權重。

能源行業結構化數據質量評估一致性監測ka表示為式(4)。

式中:ne為能源行業結構化數據一致性的唯一非零特征根值;δmax為能源行業結構化數據判斷矩陣的最大特征根。

2.3 數據質量全生命周期管理

戴明環方法是一種數據質量全生命周期管理方法,該方法通過“計劃-執行-檢查-處理”四個階段對能源行業結構化數據的質量進行管理[14-16]。

線性插值方法是一種能源行業結構化數據修復方法,該方法將缺失數據鄰近已知正常數據用插值方法連接,然后對插值的曲線進行計算,從而獲得異常數據的預估值[17]。該方法具有速度快、效率高的特點,因此,本研究采用線性插值方法對能源行業結構化數據進行修復。

異常數據修復值ja滿足式(5)。

式中:js和jb分別為異常數據前后鄰近的已知正常數據值;a為異常數據點;s和b分別為異常數據前后鄰近的已知正常數據點。

3 算例分析

3.1 場景與參數設定

為驗證文中所提能源行業結構化數據質量評估的有效性,在我國某城市能源數據中心進行實際應用。該區域的能源數據包括電、水、氣、熱、煤和油數據,接入的數據單位為32.5萬戶。文中能源行業結構化數據質量評估與修復工具采用python 開發,程序部署在城市能源中心機房,服務器采用的中央處理器為英特爾至強E2200,服務器數量為4臺,運行的主頻為2.8 GHz,服務器內存為128 GB,服務器硬盤為64 TB,服務器的操作系統為Linux。與文中方法進行對照試驗的是云網融合數據質量評估方法[18]。

3.2 算例運行分析

3.2.1 能源行業結構化數據質量評估準確率分析。選擇能源行業結構化數據為1萬、2萬、5萬、8 萬、10 萬、15 萬、20 萬條,分別采用文中所提層次分析法與云網融合的能源中心數據質量評估方法比較數據質量評估準確率,其數據質量評估準確率結果見表1。

表1 能源行業結構化數據質量評估準確率

由表1 可知,文中所提層次分析法平均能源行業結構化數據質量評估準確率為99.67%,層次分析方法對能源行業結構化數據按層級進行分解,并進行評估,評估的準確率高于云網融合方法評估準確率94.78%。因此,文中所提層次分析法數據質量評估準確率更高。

3.2.2 能源行業結構化數據修復準確率。選擇能源行業結構化異常數據為1 000、2 000、3 000、5 000、8 000、10 000 條,分別采用文中所提戴明環方法與云網融合的能源中心數據質量修復方法比較數據修復準確率,能源行業結構化數據修復準確率如圖2所示。

圖2 能源行業結構化數據修復準確率

由圖2 可知,文中所提戴明環方法平均能源行業結構化數據修復準確率為98.57%,云網融合方法的平均能源行業結構化數據修復準確率為94.13%。因此,文中所提方法平均能源行業結構化數據修復準確率高于云網融合方法。

4 結語

本研究針對能源行業結構化數據質量低、異常數據修復困難等問題,提出了一種能源行業結構化數據質量評估與修復方法。該方法通過Strong-Wang 框架和元數據建立了數據質量框架與評估標準,實現了能源行業結構化數據的生命周期評估與修復,提高了能源行業結構化數據的管理水平。

下一步將結合碳排放計量分析數據,對該評估與修復方法做進一步研究。

猜你喜歡
能源行業結構化框架
框架
促進知識結構化的主題式復習初探
廣義框架的不相交性
結構化面試方法在研究生復試中的應用
我國能源行業上市公司內部審計存在的問題、成因分析及建議
能源行業網絡安全人才需求與培養探討
我國能源行業排污權交易的國內與國外經驗研究
WTO框架下
一種基于OpenStack的云應用開發框架
基于圖模型的通用半結構化數據檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合