?

基于圖數據庫的電力資產畫像技術研究

2018-01-25 18:47任曉龍戴光耿澤飛
電網與清潔能源 2017年11期
關鍵詞:畫像字典計算結果

任曉龍,戴光,耿澤飛

(國網陜西省電力公司,陜西西安 710048)

資產管理對于企業來說是一項十分重要的工作。電力企業屬于典型的資產密集型企業,其資產具有規模大、跨部門、更新快的特點,資產精細化管理的程度直接影響到企業的安全生產能力、服務社會能力、創造盈利能力和持續發展能力。而實現電力資產精細化管理首先必須實現對于所擁有的電力資產當前狀況的客觀、全面、準確的認識。

電力資產畫像是電力企業實現對于電力資產當前狀況的客觀、全面、準確認識的有效手段。電力資產畫像的實現依賴于電力企業運行過程中產生的業務數據。電力企業在日常生產過程中,產生了大量的與電力資產相關的業務數據。這些數據是以編碼形式存在的信息載體,是物理世界的碎片化反映。電力企業可以使用這些業務數據,通過特定的分析方法,生成對于電力資產的一個個側寫,從各個方面客觀、清晰、定性地描述電力資產。這些側寫匯總在一起,形成電力資產業務對象的全視角的電力資產畫像,提供給電力企業使用。

使用電力資產畫像的計算結果,電力企業可以及時、深入、全面、準確地了解電力資產的現狀,發現存在的問題,及時制訂并執行相應的措施,防范可能的風險,保障電力資產正常、高效的運行狀態,從而保證電力企業整體的安全生產、服務社會、創造盈利的能力。

1 解決方案

1.1 總體思路

數據畫像其實就是對現實業務對象做的一個數學模型,在整個數學模型中,其核心是怎么描述業務知識體系,而這個業務知識體系就是本體論。本體是概念模型的明確的規范說明,也可以說是一種形式化的,對于共享概念體系的明確而又詳細的說明。目前其在人工智能領域有著廣泛的應用,谷歌通過本體建模形成了全網知識圖譜,實現了智能搜索。本體論十分復雜。這里通過“標簽”這種樸素的實現方式來構建[1-4]。

電力資產畫像的核心概念是信息的標簽化,它是在完成研究對象的各個維度的主要信息數據收集后,高度精煉地抽象出的該對象的全貌標簽。標簽化的目的:一方面是對多維信息進行標簽化后,方便計算機的識別和處理;另一方面,標簽本身具有準確性和非二義性,利于后期的整理、分析和統計。

實現電力資產畫像首先需要建立電力資產畫像的計算模型(簡稱為畫像模型)。具體方法是,對各個電力業務對象構建其特有的標簽庫,而后,為標簽庫中所有的標簽設置算法。標簽庫及標簽庫中各個標簽的配屬算法組成了此電力業務對象的畫像模型。進行畫像計算時,將依據畫像模型的標簽及其算法進行標簽值的計算,作為計算結果的標簽值組成了電力業務對象的畫像。

標簽庫的算法使用電力業務數據作為輸入,計算出各個標簽的標簽值。分別設計標識類、分類型、連續型、曲線類等數據類型對應的標簽化處理方法。對規律不明顯、復合型數據采用數據挖掘的方式標簽化處理。分類標簽生成方法如下。

1.1.1 直接獲取類

這類標簽可從數據庫中直接獲取,不需要進一步加工和運算。這種方法多應用于屬性標簽,主要描述資產的基本信息。

1.1.2 邏輯運算類

通過簡單的邏輯計算即可得到這類標簽。例如運行時長、巡視周期等。多應用于行為標簽,能體現資產的運行信息。

1.1.3 算法挖掘類

這類標簽需要通過大數據的挖掘算法,構建模型而得到,多應用于預測類標簽。主要的算法包括以下幾種。

1)分類分析技術:某種指定的屬性特征將標簽歸類。需要確定類別的概念描述,并找出類判別準則。常用的算法包括KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經網絡等。

2)聚類分析技術:通過聚類算法將分類不明確的屬性進行聚類分析和挖掘,提供標簽準確性,涉及的技術包括K均值聚類、層次聚類、模糊C均值聚類等。

3)關聯分析:關聯分析的目的是找出數據集合中隱藏的關聯網,是離散變量因果分析的基礎。通過關聯分析深度挖掘多個基礎標簽的關系,得到更高層次的客戶標簽,涉及的技術包括Apprioir算法、FP-Growth算法等。

4)回歸分析:通過分析驗證標簽屬性設置的合理性,以及客戶畫像的準確性,涉及的技術包括多元線性回歸、多元非線性回歸、邏輯回歸等。

5)文本挖掘:在資產整個壽命周期中,有些信息是以文本的形式記錄,而對于這類非結構化數據的處理,需要采用文本特征化技術,提取其中隱含的標簽信息。對于文本特征化提取,可以采用TFIDF算法,用來評估一個詞對于一個文本集或一個語料庫中的其中一份文件的重要程度。

1.2 關鍵問題及解決方案

根據第1.1節的電力資產畫像總體思路,在具體實現過程中需要考慮這些關鍵問題。

1)聚類標簽算法的實現及調用:聚類算法需要使用專用的數據挖掘軟件實現,編制好的數據挖掘算法必須可以通過數據挖掘軟件開發接口提供給電力資產畫像計算進行功能調用。

2)專用邏輯算法的編制及管理:需要能夠在線注冊、卸載、更換專用的邏輯算法。這樣,在進行畫像模型建模時,可以編寫相應的標簽算法,上傳并注冊和使用。在使用過程中,如果發現某個專用邏輯算法效果不理想,可以編制一個新的算法,在線更換它。根據以上要求,可以使用具有熱插拔特性的OSGI組件標準來實現專用的邏輯算法。

3)電力資產畫像模型的可視化建模:可以對任意一個電力業務對象(例如,變壓器、開關、員工等)進行可視化建模,通過可視化的方式為它添加標簽,配置標簽算法。這就需要編制一個畫像模型可視化建模的工具。

4)標簽算法的結果值字典:標簽定性地描述電力業務對象某一維度特征。因此,需要把標簽算法的數值類型計算結果轉換為一個定性的字典值。例如,設備健康情況標簽的計算結果是,健康指數為80。80不能定性地表達設備健康情況到底是好是壞,因此,需要一個字典將此數值翻譯成定性的標識。設備健康情況專用字典中,健康指數80~100表示設備健康情況是“優秀”。因此,經過字典轉換,設備健康情況標簽的標簽值是“優秀”。

5)電力資產畫像模型的解釋及執行:系統要能夠依據電力業務對象的畫像模型中的標簽及標簽配屬的算法進行畫像計算,生成并保存計算結果。

6)畫像成果的保存:使用了圖數據庫技術作為電力資產畫像模型、電力資產畫像結果的數據存儲技術。因為,圖數據庫比關系數據庫更有利于保存數據之間的關系,進行復雜的數據關系的查詢時速度比關系數據庫快幾千倍。電力資產畫像中,需要保存大量的數據關系。例如,業務對象與標簽的關系、標簽與算法的關系、算法與字典的關系、標簽值與所有算法的關系,等等。還需要進行大量的關系查詢,例如,設備健康情況標簽值是“優秀”的設備有哪些。

7)畫像結果影響因素指標:用戶可能需要了解標簽計算結果是如何計算出來的。有2種方式可以用來描述計算結果的計算過程。一種是標簽計算過程中記錄詳細的計算流水,而后在查詢時向用戶展示;另一種是制訂標簽值的影響因素指標,使用指標粗略地描述標簽值可能的影響因素。在實際應用中,選擇第二種方式。原因是,數據挖掘軟件一般無法記錄和輸出詳細的計算流水;標簽計算算法過于專業和復雜,用戶很難看懂詳細的計算過程。

1.3 資產畫像技術基礎-圖數據庫簡介

為了記錄資產畫像標簽值與資產畫像模型之間的關聯關系,便于進行關系查詢,采用了最新的圖數據庫作為資產畫像模型以及資產畫像計算結果的數據存儲技術。在這里,對于圖數據庫做一個簡要介紹。

圖數據庫以圖結構作為數據模型,具有網狀數據的存儲與檢索能力。相比于關系數據庫,圖數據的優勢在于能夠進行復雜連接關系的查詢。

在一個圖中包含2種基本的數據類型:Nodes(節點)和 Relationships(關系)。Nodes和 Relation?ships都可以包含key/value形式的屬性。Nodes通過Relationships所定義的關系相連起來,形成關系型網絡結構。例如圖1描述了學生與班級、中學之間的關聯關系。

圖數據庫具有專用的關系查詢語言,以實現對于關系的查詢,這類似于關系數據庫中的SQL語言。例如,對于圖1,使用者可以編寫關系查詢語句,查詢出李強的校友有哪些人[5-7]。

圖1 關系型網絡結構Fig.1 Relationship network structure

1.4 資產畫像實現方案

1.4.1 電力業務對象畫像模型結構

電力業務對象畫像模型中包含了電力業務對象的標簽信息、標簽所使用的算法信息。系統進行畫像計算時,將解析此畫像模型,據此調用各個標簽的算法進行計算。畫像模型存儲在圖數據庫中,如圖2所示。

圖2 畫像體系模型Fig.2 Graph system model

圖2顯示了變壓器的畫像體系模型。從計算實現的角度,標簽可以分為3類,分別是屬性類標簽、挖掘類標簽、計算類標簽。每個人標簽分類下面可以包含任意數量的標簽。

屬性類標簽的標簽值來源于一個業務數據表的某個字段。例如,“名稱”標簽的標簽值是“臺賬表”的“名稱”字段。

挖掘類標簽的標簽值來源于一個挖掘流的計算結果。使用數據挖掘軟件制作一個挖掘流,電力資產畫像計算可以通過數據挖掘軟件的開發接口訪問此挖掘流。挖掘流可以掛接一本字典,用以將挖掘流輸出的數值型結果翻譯成定性的標識。

計算類標簽的標簽值來源于一個定制算法組件的計算結果??梢跃帉懸粋€OSGI組件,上傳并注冊。畫像建模時,將此組件關聯到一個標簽,作為此標簽的算法。畫像計算時,此算法組件的計算結果就是此標簽的標簽值。

1.4.2 電力資產畫像計算過程

電力資產畫像的計算將依據上述的電力資產畫像模型,按照一定的時間周期定期執行,每次計算都會生成一幅電力資產的畫像。數據流圖如圖3所示。

畫像計算首先需要讀取畫像模型,找到畫像模型包含的標簽及標簽配置的算法。依據標簽的分類,提取標簽關聯的數據表字段、執行標簽關聯的計算組件、執行標簽關聯的挖掘流,得到相應的計算結果。

圖3 資產畫像計算過程Fig.3 Asset graph calculation process

從數據表中提取的表字段可以直接作為標簽值進行保存;計算組件及挖掘流的計算結果,可能需要字典進行翻譯,以將數值型結果轉換成定性的標識?!氨4娈嬒瘛绷鞒坦濣c進行標簽值及中間結果的保存工作。

所謂中間結果,是指標簽值的影響因素的指標數據。例如,變壓器的健康狀況可能與工作環境平均溫度有關,極寒或者極熱都會導致變壓器的健康狀況不佳。因此,工作環境平均溫度就可以作為健康狀況標簽值的影響因素指標。標簽的計算組件、挖掘流會輸出中間結果,以便描述標簽值計算結果產生的原因。

影響標簽值的指標可以分為3類,分別是正向指標、逆向指標、適度指標。正向指標的指標數據越大,標簽值就越理想;反向指標的指標數據越小,標簽值就越理想;適度指標的指標數據越接近最佳點,標簽值就越理想。

1.4.3 電力業務對象畫像結果存儲方式

畫像結果存儲在圖數據庫中。通過增加畫像對象節點、標簽值節點、標簽值與算法(或者字典標識值)的關聯關系的方式保存畫像計算結果,如圖4所示。

圖4中,變壓器畫像計算保存了“變壓器1”、“變壓器2”這2個變壓器的畫像計算結果(圖中只繪制了健康指數標簽的計算結果)。變壓器1具有2017年1月、2017年2月這2個統計周期的畫像;變壓器2具有2017年1月這個統計周期的畫像。

各個統計周期的畫像的標簽值需要增加標簽值節點進行保存。建立統計周期節點與“標簽值”節點(其中包含了標簽值與中間結果)的“標簽值”關系,以記錄標簽值屬于的統計周期。

需要記錄標簽值對應的字典標識,以記錄標簽值對應的算法及翻譯字典,因此建立了標簽值節點與畫像模型的字典值節點的關聯關系。如果標簽值不需要查字典以轉換成字典標識,可以直接將標簽值關聯到畫像模型的算法節點。

圖4 畫像結果存儲Fig.4 Graph result storage

1.4.4 電力資產畫像計算結果應用

畫像結果保存完畢后,可以使用圖數據庫查詢語言,查詢出電力業務對象各個統計周期的畫像;可以查詢出某個標簽的某個字典值對應了哪些電力業務對象,從而在實際工作中采取相應的電力資產管理措施。

電力資產畫像的計算結果可應用于資產預防性檢修、資產成本效能評價、供應商評價等電力業務場景。

例如,針對電網資產預防性檢修方面,運檢部工作人員查詢到最近一個月內健康狀況為不合格的一臺330 kV變壓器,根據健康狀況標簽以及此標簽計算輸出的中間結果(畫像結果影響因素指標),發現不合格的原因為油氣試驗中乙炔/乙烯的比值不在規定區間范圍內,其未來3個月內發生低能故障的概率為65%;通過進一步查看該主變壓器的行為標簽運行時長8年,最近一次檢修日期為2個月前,最近一次發現故障的日期為6個月前。據此,輔助運檢人員決定對該設備采取預測性檢修。

2 結論

綜上所述,通過實施電力資產畫像,電力企業可以對于電力資產的狀態進行全方位地了解,進而根據各個電力資產的狀況,采取合理的精細化管理措施,保障電力資產運行安全、可靠、穩定,進而達到不斷改進電網運行績效,持續提升電網安全經濟優質輸電和供電服務水平的目的。

[1] 王慧孜,范煒.圖數據庫在標簽系統中的應用研究[J].數字圖書館論壇,2015(4):21-27.WANG Huizi,FAN Wei.Application of graph database in labeling system[J].Digital Library Forum,2015(4):21-27.

[2] 王余藍.圖形數據庫NEO4J與關系數據庫的比較研究[J].現代電子技術,2012,35(20):77-79.WANG Yulan.Comparison of graph database NEO4J and relational database[J].Modern Electronics Technique,2012,35(20):77-79.

[3] 余孟杰.產品研發中用戶畫像的數據模建[J].設計藝術研究,2014,4(6):60-64.YU Mengjie.Data modeling of user portrait in product development[J].Design Art Research,2014,4(6):60-64.

[4] 蔡澤祥,王星華,任曉娜.復雜網絡理論及其在電力系統中的應用研究綜述[J].電網技術,2012,36(11):114-121.CAI Zexiang,WANG Xinghua,REN Xiaona.Review of complex networks theory and its application in power sys?tem[J].Power System Technology,2012,36(11):114-121

[5] 朱朝陽,王繼業,鄧春宇.電力大數據平臺研究與設計[J].電力信息與通信技術,2015,13(6):1-7.ZHU Chaoyang,WANG Jiye,DENG Chunyu.Research and design of power big data platform[J].Electric Power Informa?tion&CommunicationTechnology,2015,13(6):1-7.

[6] 楊華飛,李棟華,程明.電力大數據關鍵技術及建設思路的分析和研究[J].電力信息與通信技術,2015,13(1):7-10.YANG Huafei,LI Donghua,CHENG Ming.Analysis and research on key technologies and construction ideas of powerbig data[J].Electric Power Information and Communication Technology,2015,13(1):7-10.

[7] 王繼業,季知祥,史夢潔,等.智能配用電大數據需求分析與應用研究[J].中國電機工程學報,2015,35(8):1829-1836.WANG Jiye,JI Zhixiang,SHI Mengjie,et al.Analysis and application ofdata requirementsforintelligent distribution of TV university[J].Proceedings of the CSEE,2015,35(8):1829-1836.

猜你喜歡
畫像字典計算結果
威猛的畫像
“00后”畫像
畫像
不等高軟橫跨橫向承力索計算及計算結果判斷研究
字典的由來
我是小字典
正版字典
超壓測試方法對炸藥TNT當量計算結果的影響
潛行與畫像
噪聲對介質損耗角正切計算結果的影響
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合