?

基于電力企業數據中心的數據資產管理體系研究

2022-05-21 06:54張世超楊乘勝朱海東趙竟趙航張庭玉
電力大數據 2022年1期
關鍵詞:數據中心負荷預測

張世超,楊乘勝,朱海東,趙竟,趙航,張庭玉

(1.中國華電集團有限公司,北京 100031;2.南京華盾電力信息安全測評有限公司,江蘇 南京 210000)

當前國內關于數據資產管理的理論和實踐還處于初始階段,工業領域數據資產管理實力及能力參差不齊,企業往往對其自身的數據資產類別和數量都缺乏全面了解[1]。在數字化轉型的背景下,多數企業正面臨如何優化數據的集成、共享、應用和管理等方面的問題,在數據管理、應用方面的體系構建還有待進一步完善[2]。

中國信息通信研究院發布的《2018工業企業數據資產管理現狀調研報告》對我國工業企業的數據資產管理現狀從組織制度方面、信息化能力方面、數據監管方面做了初步的評估工作,其結論為國內工業企業大部分剛剛站在企業數據資產管理這條起跑線上,重要性認識已經基本到位,目前正在計劃或開展相關的活動[3]。

行業內專家已開始探討電力企業數據管理,在前期研究中,已有學者引入先進技術如泛在物聯網技術、知識圖譜技術來管理數據的全生命周期,以期挖掘更多的數據價值[4]。目前未明確發布符合電力數據特點的整體數據解決方案,在數據運維方面大多沿用傳統的技術運維方案,對于數據退役,大型電力企業執行的是公文管理中對公文存儲時間相關規定,對于數據的全生命周期管理鮮有制定或形成專門的辦法規定。

綜上,企業亟需建立一套集存儲、統計、分析、展示于一體的統一數據中心,形成符合企業實際的數據資產管理體系[5],打通各個系統之間的壁壘,及時有效的反映企業整體生產和經營狀況,實現信息化、智能化管理,切實提高工作效率和增強數據輔助決策能力[6]。

1 某電力企業數據現狀與數據資產管理需求分析

企業為了明確將數據作為公司核心資產的理念,需要摸清公司數據管理能力現狀,發現數據管理工作中的薄弱環節,嚴格依照國標、行標,對企業數據資產全生命周期業務范圍進行成熟度評估。通過數據資產清單梳理、數據需求調研分析、信息系統數據共享分析等評估實踐[7],發現企業數據管理方面存在的問題和不足。

1.1 數據集成現狀

目前企業內各業務部門的信息化系統較為分散,數據互通能力不高,存在數據孤島現象。管理層和決策層難以在第一時間掌握總體經營情況,各個部門之間的部分生產、經營等關聯數據的交互產生滯后效應,給數據的挖掘、分析等工作造成巨大阻力,導致大量數據難以被有效利用,數據價值難以兌現[8]。此外,各個業務系統相對獨立,存在重復開發的情況,維護過程耗費大量人力成本。系統數據標準存在不統一、不規范等情況,系統間數據存在冗余且較為散亂,導致數據資產管理存在一定的困難,造成數據資源的浪費。

1.2 數據資產管理需求

發電企業亟需建立數據的匯集中心,以促進各部門、各區域公司數據的充分共享,推進信息資源的整合對接[9]。統一處理采集、存儲、分析與經濟運行相關的數據,支撐經濟運行業務;采集風、光、水、火等綜合能源相關數據信息,實現區域能源結構性優化[10];支持數據分析及戰略經營性項目,實時反映企業的整體運行狀態,為企業領導提供及時、可靠、準確的數據分析,助力領導準確、及時地把握和調整企業發展方向;將大數據分析、人工智能、機器學習等新一代信息化技術融入數據中心,提供經濟運行預測、優化算法方面的各項服務,真正滿足營銷管理信息化體系的總體要求,充分發揮數字化作用[11]。數據的共享服務應用如下圖所示。

圖1 數據資產共享服務應用Fig.1 Data asset sharing service application

1.3 企業數據模型建設需求

在已有業務建模成果基礎上,進一步擴展數據模型,擴展數據標準規范,實現企業范圍內數據的唯一性與共享性,持續改進數據標準規范。

模型設計具體需求包括:

(1)設計并逐步完善統一的共享交換數據模型,為企業的信息化應用之間數據的共享交換提供統一信息視圖。

(2)在共享交換模型基礎上設計并逐步完善統一的數據倉庫模型,以支撐專業輔助決策和綜合分析等高級應用。

(3)在共享交換數據模型與數據倉庫模型基礎上,建立全企業需要進行信息交互的全局數據模型架構。

為建設符合電力行業業務特色的企業數據模型,需大量、深入的研究學習國際上開放、成熟的電網企業數據標準體系成果:包括IEC CIM的理論研究[12-15]、國際電網企業CIM應用項目的研究[16]等,遵循“模型統一化、接口標準化、管控規范化、應用持續化”的四化建設原則,最終形成公共信息模型(PE_CIM)數據倉庫模型和全局數據模型。

2 新一代信息化技術在數字中心中的應用

數據中心通過將存儲的數據進行統計、分析,打通各個系統之間的信息孤島,形成一套全面、強力的數據挖掘分析體系,全面助力電力企業數據集成和整合。

為了滿足新時代營銷管理需求,大數據和人工智能技術被應用到營銷決策的預測,比如合同盈利預測、電廠的日負荷預測,日前節點和實時節點電價預測[17]。這些數據的預測可以有效助力決策者進行科學、合理和及時決策,完成基于公司數據資產的經濟運行優化。

2.1 用戶合同盈利判斷

這里以商業盈利模型為例,步驟包括采集當前合同用戶成交信息;將用戶合同數據輸入至已訓練好的迭代決策樹算法模型中,獲取盈利結果。所述迭代決策樹算法模型采用下述方法訓練獲?。翰杉脩艉贤山粩祿?;利用原始數據構建訓練集;采用訓練集訓練迭代決策樹算法模型;本發明采用訓練完成的模型對用戶當前的合同是否盈利進行預測,該方法診斷對數據特征值數量有較低要求,同時提高了診斷的準確率。

迭代決策樹算法模型生成步驟如下:

步驟A,對于每組合同正收益數據,y值設定為M1,對于每個負收益合同,其y值設定為M2,x值是由合同信息提取的特征值組成的N維向量,形成訓練集:

D={(x1,y1),(x2,y2),……,(xN,yN)}

(1)

步驟B,對數據集進行切分變量j和切分點s的求解:

假設得到一對切分變量j和切分點s,會將整個輸入空間劃分為兩個區域:

R1(j,s)={x|x(j)≤s}

(2)

R2(j,s)={x|x(j)>s}

(3)

根據下列原則遍歷所有切分變量j和切分點s,求解得到最優的一組結果:

(4)

對于固定的一組切分變量j和切分點s,得到屬于這個劃分區域的兩個區域值:

(5)

(6)

步驟C,重復調用步驟B,直到滿足停止條件,得到一個完整的回歸樹:

(7)

步驟D,將上述形成的回歸樹對訓練集的預測結果和真實值相減得到殘差,再將殘差作為更新的y值,得到更新的訓練集:

D={(x1,y1),(x2,y2),……,(xN,yN)}

(8)

重復調用步驟B、步驟C,迭代生成回歸樹,直到滿足殘差數組小于設定值。流程如下圖所示:

圖2 回歸樹生成流程圖Fig.2 Flowchart of regression tree generation

根據訓練完成的決策樹模型,將需要預測用戶交易合同的信息作為輸入,通過決策樹模型的訓練,將最終該合同是否盈利的預測結果輸出。

2.2 電廠負荷預測

下面介紹電廠負荷預測的數據分析的管理體系方法。這里使用統計學ARIMA模型進行電廠負荷預測。針對電廠每日負荷數據建立模型,對未來時間段電廠負荷進行預測,采用標注的電力負荷數據格式(每15min一個采樣點,每日包含96個采樣點,量綱為MW)。

在ARIMA模型搭建中,分為三個步驟。首先對數據集進行預處理和預分析,之后對模型參數進行評估,建立模型,最后通過建立的模型求得預測的結果。在數據預處理階段,通過數據可視化,可初步判斷該模型是否平穩[18]。如果序列的均值和方差不隨時間發生明顯變化,可通過白噪聲檢驗,則序列平穩,未來時刻信息對于往期數據依賴性沒有明顯變化,適用于時間序列預測[19]。在模型參數評估階段,根據選定的ARIMA模型,對三個參數p,q,d進行評估取值。如果初始序列平穩,則d為0,否則對序列進行差分運算,每進行一次運算d值加一,直到序列平穩為止。參數p,q通過序列的自相關圖和偏自相關圖確定,先根據其圖像的n階截尾或拖尾初步選定p,q,然后通過AIC,BIC值進行驗證,選取最合適的p,q值。根據選定的參數建立的模型,對后一天序列值進行預測。ARIMA模型的優點為建模需要歷史數據少,預測結果良好,缺點是要實時更新模型進行預測,否則后期誤差較大,大量數據對模型增益少。下面進行模型搭建:

2201天負荷數據如下圖,可以看出數據整體趨勢較為平穩,但是仍然有隨著時間點推移,整體向上波動的趨勢:

圖3 負荷數據趨勢圖Fig.3 Load data trend plot

如果需要預測最后一天的短期負荷,本方法通過之前十天的負荷數據建模,真實負荷數據如下,并且可以觀察到計算出的均值和方差波動,介于本方法數據具有周期性(一天產生96個時間點),均值和方差均滑動計算:

圖4 負荷數據的均值和方差Fig.4 Mean and variance of load data

對該數據進行取對數平穩化和第一次差分運算后結果如下圖,可以看出一階差分后數據是平穩序列,均值和方差都基本不變,由此推測此ARIMA模型的參數d為1。

圖5 一階差分后的均值和方差Fig.5 Means and variances after first-order differences

下面,對這十天數據建立自相關和偏自相關圖,為了方便觀察,圖表只截取了前100條信息??梢钥闯鲎韵嚓P圖拖尾,偏自相關圖二階截尾,推測該模型p,q參數分別為2,0。

最后通過AIC和BIC準則驗證所得參數是否為范圍內的最優解,經驗證,p,q,d分別為2,0,1時,AIC,BIC最小,結果最優,和之前結果一致。通過獲得的參數建立模型,對未來時間點負荷進行預測。

最后通過獲得的ARIMA模型,進行一天的負荷數據預測,得到輸出結果。

2.3 節點電價預測

下面介紹節點電價預測的數據分析的管理體系方法。針對節點電價周期波動、數據量龐大的特點,數據中心采用循環神經網絡(RNN)來實現對新一日節點電價的預測,神經元單元采用長短期記憶(LSTM)模型[20]。人工神經網絡是連接神經元的分層結構, RNN是它是一類為處理時態數據而定制的神經網絡。RNN的神經元具有單元狀態記憶,并且輸入根據該內部狀態進行處理,存在重復出現的“tanh”層模塊,允許它們保留信息。LSTM模型可以增強這種保留信息的時間,從而增加保留信息的信息量,契合節點電價的數據特性[21]。

該方法用于節點電價的基本思想是使用一個循環神經網絡讀取一個時間序列的節點電價的數據,將這組數據的信息壓縮到一個固定維度的編碼中,再使用另一個循環神經網絡讀取這個編碼,將其解碼為目標時間段內的電價數據。

第一步,獲取訓練測試數據集。每組數據為一個元組,包含當日的時間和對應的數據,類似結構“(08:00,354.2)”。我們需要稍微清理原始數據,主要涉及將所有原始數據轉化為上述格式,保留時間去除日期,電價統一保留一位小數。取兩千天數據,形成數據集。

第二步,劃分數據集為訓練集和測試集,并將訓練數據帶入RNN模型,通過softmax模型將數據歸一化,從而可以得到任意一個時間點任意電價的概率表示。

第三步,訓練完成模型,并通過測試集檢驗模型準確率。帶入需要預測的時間點,得出預測的節點電價。

3 數據中心的架構設計

數據中心建設秉承設計合理、完整擴展、資源隔離的總體原則進行數據架構設計[22],主要包含數據源、數據集成、數據湖、數據主題庫、數據應用庫、數據服務、資產管理。數據架構如下圖所示:

圖6 負荷數據自相關和偏自相關圖Fig.6 Load data autocorrelation and partial autocorrelation plots

(1)數據源

數據源部分主要是指大數據中心的上游系統數據庫,按數據類型可分為結構化數據、非結構化數據、互聯網數據及物聯網網關數據等,最終目標是實現客戶方全域數據的匯集和資產沉淀[23]。

(2)數據集成

數據集成主要是指將源端數據通過各種數據集成技術完成數據集成上云,將源端數據集成到數據湖貼源區[24]。結構化數據集成主要采用數據中臺提供的離線數據集成平臺來完成,對于互聯網數據可以采用數據中臺子產品互聯網采集平臺實現采集。另外,對于物聯網網關數據、實時業務數據等可采用實時計算平臺的實時采集功能實現實時采集。

(3)數據湖

數據湖是數據資產中心的核心部分,是建立在基礎資源層之上的利用大數據中心的海量存儲空間和運算能力對數據進行存儲和標準化處理,為主題庫的建設奠定良好的數據基礎[25]。同時為跨部門數據交換提供統一的數據交換空間,實現數據標準統一、讓數據資源成體系,逐步建設可監管、可統籌的數據共享開放體系[26]。

(4)主題庫

將采集和整理后的業務數據,按照業務主體進行歸集,建立相應的主題庫,隨著原始業務數據的逐步豐富,不斷豐富主體的各維度數據,實現業務數據資產化積累[27]。

(5)應用庫

面向上層業務應用系統數據需要進行數據加工及存儲。數據加工主要采取可視化批量數據計算,對于實時性要求比較高的數據需求可以通過實時計算通道實現穩定低延遲的實時數據加工、消費。

(6)數據服務

具備敏捷資產服務化與價值化能力。主要的數據服務模式包括數據API服務、數據脫敏服務等,將數據資產在安全受控的前提下對不同的消費主體進行開放與服務,實現對服務體系的整體管控,實現數據資產的對外運營[28]。

(7)數據資產管理

資產集約化管理、治理。由數據標準、標簽管理、數據質量、資產管理四部分構成,基于統一的元數據體系提供全域數據標準化處理、數據資產化、質量治理等服務,實現數據資產的一體化管理。

技術架構以支撐數據中心的功能架構為目標,基于業界大型企業普遍使用的分布式大數據基礎架構,在采用多樣化采集技術、分布式存儲及資源調度基礎上[29],融合搜索引擎、離線計算、NoSQL、內存計算、圖計算、高效分析引擎,解決數據存儲、計算、分析問題?;贏mbari的二次封裝,實現對大數據基礎平臺的管理、配置、運維一體化。極力打造簡單可視的涵蓋一站式的智能數據生產引擎。

技術架構以數據為基礎,以全鏈路加工為核心,提供數據匯聚、研發、治理、服務等多種功能[30]。既能滿足平臺用戶的數據需求,又能為上層應用提供各種解決方案,整體技術架構如下圖所示:

圖7 數據中心技術架構Fig.7 Technical architecture diagram of data center

數據中心基于業界先進的分布式基礎架構,以Hadoop技術體系作為多樣化數據的存儲與計算,利用Hive構建離線數據計算,利用Presto提升在線數據分析效率,基于ElasticSearch實現全文檢索高效性[31]。集成與整合Flume、Kafka、Flink組件,在封裝的基礎上實現流式數據的采集與動態計算功能[32]。采用Ambari對Apache Hadoop統一管控,進行接口擴展、界面封裝,實現大數據引擎的可視化監控、管理、配置,集中管理系統日志及接口服務。

4 結束語

本文研究了發電企業數據資產管理的問題。結合發電企業的數據現狀,為解決企業數據治理的需求,構建了電力企業數據資產管理體系。從組織體系建立、職能體系建立、數據中心搭建三個方面闡述為了達到數據治理“共建、共治、共享”的目標,對數據資產管理的總體流程進行規劃。通過數據中心對企業數據實現統一管理,使得跨系統、跨業務、跨部門的不同類型的海量數據得到有效管理[33-34]、治理,有效提高了各部門間數據共享效率,為企業高質量發展打下堅實基礎。

猜你喜歡
數據中心負荷預測
無可預測
人造革合成革拉伸負荷測量不確定度評定
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
3項標準中維持熱負荷要求對比分析
關于間接蒸發冷機組在數據中心中應用的節能分析
選修2—2期中考試預測卷(A卷)
MIV-PSO-BP神經網絡用戶熱負荷預測
淺析數據中心空調節能發展趨勢
生如夏花
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合