?

基于知識圖譜技術的電網項目數據關聯分析

2024-03-09 01:11胡廣林張思慧魏國旺李海濤
機械與電子 2024年2期
關鍵詞:項目名稱集群圖譜

胡廣林,張思慧,劉 丹,魏國旺,李海濤,林 雪

(北京國電通網絡技術有限公司,北京 100070)

0 引言

隨著電力工程領域的不斷發展和電網系統的日益復雜,實現對電網項目數據的深入洞察和準確分析變得至關重要。在這一背景下,知識圖譜技術作為一種結構化、語義化的信息表示和處理手段,為電網項目數據的關聯分析提供了新的途徑[1]。通過將電力工程中的各類實體、屬性和關系抽象為圖譜的形式,基于知識圖譜技術的電網項目數據關聯分析旨在揭示實體之間的潛在聯系、依賴關系及影響因素[2],從而為電力工程的決策制定、故障診斷和資源優化等方面提供支撐。

電力工程中應用知識圖譜技術的主要研究現狀如下:

a.電力設備管理與維護。 知識圖譜技術被用于整合電力設備的技術參數、運行記錄、維護歷史等數據,構建設備的結構化表示[3]。通過建立設備之間的關系,可以實現設備之間的相互影響分析,預測潛在的故障,優化維護策略,提高設備可靠性和運行效率。

b.電力系統優化與規劃。 知識圖譜技術有助于建立電力系統的拓撲結構、輸電線路和變電站等實體之間的關系圖譜[4-5]。這可以支持電力系統的規劃和優化,幫助決策者更好地理解系統中各部分之間的相互作用,優化供電策略,提高電網的可靠性和穩定性。

c.電力市場分析與決策支持。 知識圖譜技術可以整合電力市場的市場參與者、電價走勢和供需關系等數據,幫助分析市場動態,支持決策者做出更準確的電力交易決策,優化市場資源配置[6]。

d.電力工程知識管理。知識圖譜技術有助于將電力工程中的各種知識、標準、規范進行結構化整合[7],構建知識圖譜以支持知識的查找、歸類和應用。這有助于提高電力工程團隊的協作效率和決策水平[8]。

e.電力系統故障診斷與預測?;谥R圖譜的分析,可以更準確地判斷可能的故障原因,采取相應的應對措施,減少停電和損失[9-11]。

為此,本文針對基于知識圖譜技術的電網項目數據關聯進行分析,提出了數據提取特征抽取、關聯知識圖譜分析方法及系統網絡結構等,并結合實際應用進行了效果分析。

1 電網項目特征庫構建

1.1 歷史項目特征提取

針對電網基建項目、生產技改大修項目和其他項目[12],基礎數據來源和項目特征提取方法可能有所不同。

1.1.1 電網基建項目

a.基礎數據來源。 電網基建項目的基礎數據可以來自多個渠道,包括電力公司內部的設備臺賬、技術參數,規劃部門的電網規劃數據,能源監管機構的數據等。

b.項目特征提取方法。 對電網基建項目的特征進行提取可能涉及以下方面:

①設備信息: 提取變電站、輸電線路、變壓器等設備的基本信息,如名稱、容量、位置等。

②規模和范圍: 提取項目的規模和范圍,包括涉及的地理范圍、涉及的電網節點數量等。

③時間計劃: 提取項目的計劃時間表,包括起止時間、不同階段的時間安排等。

④投資成本: 提取項目的投資成本,包括設備采購、施工等各項成本。

⑤技術特點: 提取項目采用的技術方案、創新性質等技術特點。

1.1.2 生產技改、大修項目

a.基礎數據來源。 生產技改、大修項目的基礎數據可以來自生產設備的運行數據、維護記錄,技術部門的技術方案,以及生產計劃等。

b.項目特征提取方法。 對生產技改、大修項目的特征進行提取包括以下內容:

①設備信息: 提取涉及的設備信息,包括設備名稱、型號和技術參數等。

②維護歷史: 提取設備的維護歷史,包括維護頻次、維護內容和故障記錄等。

③技術方案: 提取技改、大修項目的技術方案,包括改進措施、更換部件等。

④預計效益: 提取預計的效益,如降低維護成本、提高生產效率等。

1.1.3 其他項目

a.基礎數據來源。 其他項目的基礎數據來源可能因項目類型而異,可來自市場調研、用戶反饋和政策文件等。

b.項目特征提取方法。從項目目標、項目背景、項目需求和項目時間等提取。

具體分類方法如表1所示。

表1 特征提取方法

表1(續)

1.2 新增儲備項目特征提取

針對新增儲備項目,為避免項目名稱的不規范,滿足項目關聯分析的應用需求,根據各類項目命名基本要素,在項目名稱生成工具的信息填寫頁面中,依次填寫項目類型、項目所在地、電壓等級、項目性質和項目內容等信息后,可自動生成項目名稱。

針對預儲備項目,可使用項目名稱校驗工具,根據項目命名規則對項目名稱的準確性進行校驗,校驗通過的項目進入儲備庫。

2 電網項目知識圖譜構建技術

2.1 基于規則的信息抽取

在結構特征比較明顯、符合特定規律的情況下,最直接的方式是人工構建抽取規則,以實現特定項目信息的抽取[13]。本文提出的規則如下:

規則1:(變電站||間隔||主變)&擴建。

規則2:(變電站||間隔||線路)&送出。

規則3:(變電站||主變)&改造。

2.2 基于序列標注的機器學習信息提取

序列標注是自然語言處理技術中比較基礎的任務,在分詞、詞性標注、命名實體識別、關鍵詞抽取、語義角色標注和槽位抽取等實質上都屬于序列標注的范疇[14]。采用基于字序列的特征序列標引方法,排除分詞對于標引的局限性,可以保證較高的特征實體抽取結果,即

Labelset={B,M,E,S}

(1)

式中:B為這個漢字是詞匯的開始字符;M為這個漢字是詞匯的中間字符;E為這個漢字是詞匯的結束字符;S為單字詞。

2.3 電力項目知識圖譜基本元素

在電力項目知識圖譜的構建中,可以從概念、屬性和關系這3個維度來分析其基本構成元素:

a.概念。 概念是知識圖譜中的實體或對象,代表電力項目中的各種要素。在電力項目知識圖譜中,概念可以包括以下類型的實體:

①電力設備:發電機、變壓器和開關設備等。

②電力系統組件:輸電線路、配電變電站和控制系統等。

③技術規范:電力標準、安全規程等。

④項目信息:工程項目、施工計劃和維護記錄等。

b.屬性。屬性是與概念相關聯的特征或信息,用于描述概念的各方面。在電力項目知識圖譜中,實體的屬性可以包括:

①電氣參數:功率、電流和電壓等。

②技術特性:設備型號、額定容量和制造商等。

③位置信息:地理坐標、安裝位置等。

④時間信息:維護日期、投運時間等。

c.關系。關系表示概念之間的連接和依賴關系,是知識圖譜的核心。在電力項目知識圖譜中,關系可以包括:

①物理連接:設備之間的連接關系,如輸電線路連接發電站和變電站。

②依賴關系:設備之間的功能依賴,如發電機依賴于燃料供應。

③影響關系:操作或故障對系統其他部分的影響,如設備故障影響供電可靠性。

④遵循關系:設備符合的技術規范、標準等。

基于這些維度,電力項目知識圖譜的構成元素可以被表示為一系列實體、屬性和關系的集合,通過圖數據庫等工具進行存儲和查詢。這有助于電力項目的管理、維護、規劃以及決策支持。

2.4 電力項目知識圖譜構建方法

知識圖譜將非線性世界中的知識信息結構化、可視化,輔助人類進行推理、判斷和歸類。知識圖譜中的圖并非圖像的概念,而是類似化學分子式的結構,一個知識圖譜往往存在多種類型的實體與關系。知識圖譜在電力工程項目中的構建方法可以按照以下步驟進行:

a.需求分析與數據收集。首先,明確電力工程項目的需求和目標。確定需要在知識圖譜中表示的實體(如電力設備、系統組件和技術規范等)以及它們之間的關系。收集來自各種數據源的信息,包括結構化數據(數據庫、表格)、半結構化數據(XML、JSON)和非結構化數據(技術文檔、報告)。

b.數據預處理與轉化。對收集到的數據進行清洗、轉化和集成,以便將其映射到知識圖譜的實體和關系上??赡苄枰M行數據標準化、歸一化、實體識別和關系抽取等操作,以確保數據的一致性和準確性。

c.知識圖譜建模。根據實際需求,選擇適當的知識圖譜建模技術。將電力工程中的實體和關系轉化為類似化學分子式的結構,其中實體可以是電力設備、技術標準和工程項目等,關系可以是連接它們之間的物理、功能和依賴關系等。這些實體和關系應該以屬性和屬性值的形式進行表示。

d.圖數據庫存儲。 選擇合適的圖數據庫來存儲知識圖譜。圖數據庫能夠有效地存儲圖形結構數據,并提供高效的查詢和推理能力。將轉化后的實體、關系和屬性信息存儲到圖數據庫中。

e.查詢與推理。 利用圖數據庫的查詢和推理功能,實現對知識圖譜的靈活查詢、關聯分析和推理。這有助于從圖譜中提取出有價值的信息,支持決策、分析和問題解決。

f.可視化與應用開發。 借助可視化工具或應用開發框架,將知識圖譜中的信息以圖形化形式展示出來,使用戶能夠更直觀地理解和使用其中的知識??梢蚤_發針對不同用戶群體的應用,以滿足他們的具體需求。

電力工程項目中構建知識圖譜需要從需求分析開始,經過數據收集、預處理、建模、存儲和查詢推理等多個階段。這將幫助電力工程團隊更好地組織和利用項目中的知識信息,提高項目效率和質量。

3 項目多維關聯分析平臺

3.1 基于項目特征庫的關聯分析方法

在電力領域中,實施電網基建、技改、大修項目以及與之相關的設施購置項目的關聯性對于提高項目的管理效率、資源利用效益以及整體運營水平至關重要。本文提出實施項目特征關聯方法如下:

a.項目特征提取。首先,針對每種類型的項目(如電網基建、技改、大修和設施購置等),從項目本身的角度提取特征。這可能包括項目的目標、規模、時間計劃、投資成本、所涉及的設備或設施等方面的信息。

b.設施和設備的關聯。對于同一變電站、線路或設施,將所有與之相關的項目進行關聯。這可以通過建立項目數據庫或信息系統來實現,將每個項目與相應的設施進行綁定。

c.項目目標和關聯性分析。分析不同項目之間的目標和關聯性。如某個電網基建項目可能與設施購置項目相關,因為需要購置新的設備來支持基建。技改項目可能與大修項目關聯,因為需要在技改過程中進行設備維修和更新。

d.項目計劃協調。在項目規劃階段,要充分考慮關聯項目之間的時間計劃。避免在短時間內對同一設施進行多次干預,以減少設備停機時間和工程沖突。

e.資源共享和協同效應。針對相關項目,可以優化資源的分配和利用。如同一設施上的基建和技改項目可以共享施工設備,降低成本。

f.風險分析和控制。通過關聯分析,可以更好地預測可能的風險。如果某項項目出現延誤,可能會影響到其他關聯項目的實施計劃。因此,可以采取風險控制措施來降低影響。

g.數據管理和信息共享。建立統一的項目信息管理系統,將各類項目的數據集中管理,并提供信息共享和查詢功能,以便更好地監管和決策。

可見,項目特征關聯方法有助于將不同類型的電網項目以及與之相關的設施項目進行協調、優化和整合,從而提高電力系統的運營效率和可持續性。這種方法可以促進資源共享、風險控制和信息流通,為電力領域的項目管理和運營提供有力支持。

關聯方法如圖1所示。

圖1 基于項目特征庫的關聯分析方法

3.2 基于文本相似比對算法的項目關聯分析方法

在電力領域中,實現電力項目關聯可以借助文本相似比對算法,通過分析項目名稱、去除干擾詞和計算文本相似度等步驟,建立相似項目集合,從而實現項目功能關聯。

a.項目名稱獲取。首先,獲取所有待關聯的電力項目的項目名稱。項目名稱是識別和比對項目的重要依據,但通常會因為命名的差異而存在一些變化。

b.分詞處理。對每個項目名稱進行分詞處理,將項目名稱分解成不同的詞匯單元。這有助于對項目名稱進行更細粒度的比較。

c.去除干擾詞。從分詞結果中去除一些常見的干擾詞,如“電力”、“工程”、“項目”等。這些詞匯通常不會對項目關聯造成實質性影響。

d.文本相似度對比算法。使用文本相似度計算算法來比對項目名稱之間的相似性。常用的算法包括余弦相似度、Jaccard相似度和編輯距離等。這些算法可以量化2個項目名稱之間的相似程度。

e.相似度閾值設定。設定1個相似度閾值,用于判斷2個項目名稱是否相似。根據實際情況,可以調整閾值來平衡準確性和覆蓋率。

f.相似項目集合構建。遍歷所有項目名稱,對每個項目名稱進行與其他項目名稱的相似度計算。如果相似度超過設定的閾值,則將這2個項目視為相似項目,加入相似項目集合。

g.項目功能關聯。對于同一個相似項目集合中的項目,可以認為它們在功能或內容上存在關聯。這些關聯可以是由于相似的電力領域背景、相同的設備或設施等引起的。

h.實現項目功能關聯。在獲得相似項目集合后,可以根據集合中的項目相似性,來實現項目功能的關聯。如可以將相似項目集合作為參考,輔助決策、資源分配等。

綜上所述,通過項目名稱的分詞、文本相似度對比算法等步驟,可以實現電力項目的關聯。這種方法可以自動識別潛在的功能關聯,從而更好地管理和優化電力項目,提高運營效率。但需要注意,該方法的準確性可能會受到項目命名的規范性和相似度算法的選擇等因素的影響。

分類方法如圖2所示。

圖2 基于文本相似比對算法的項目關聯分析方法

3.3 項目圖譜關聯流程分析

a.構建項目規則庫。首先,為了進行關聯分析,需要定義一系列規則,這些規則可以是領域專家的經驗知識。如規定哪些電力設備之間可能存在相關性,哪些屬性需要被關注等。

b.提取信息來源。收集來自不同數據源的信息,包括電力設備的技術參數、運行記錄和維護報告等。這些信息來源可以包括數據庫、文件和API等。

c.提取項目特征。從收集到的數據中,提取出與電力工程項目相關的特征,如設備的屬性、狀態和運行數據等。這些特征將作為關聯分析的基礎。

d.配置字段獲取方式。確定如何從數據源中提取項目特征。這可能涉及到數據清洗、轉換和整合,以便將不同數據源的信息映射到統一的字段中。

e.規則維護。根據實際情況,定期更新和維護項目規則庫,確保其中的規則和知識與電力工程的發展保持一致。

f.構建集群庫。根據提取的特征,將電力設備或項目劃分成不同的集群,這些集群代表了具有類似特征的設備或項目組合。

g.集群查詢。利用構建的集群庫,進行查詢以找出具有相似特征的設備或項目。這有助于發現一些隱藏的關聯性和趨勢。

h.集群調整。分析查詢結果,檢查集群的合理性,如有需要,可對集群進行調整,如合并或細分。

i.集群確定。確定最終的設備或項目集群,這些集群可以反映出潛在的關聯關系,如設備運行模式的相似性、設備故障的相關性等。

j.集群分析與決策支持。對確定的設備或項目集群進行進一步的分析,探索其中的關聯模式、趨勢等。這些分析結果可以為電力工程項目的決策提供支持,如維護策略的制定、設備更新計劃等。

3.4 系統網絡結構

基于技術中臺的人工智能平臺[15],提供獲取項目各環節關鍵關聯信息服務,支撐業務描述規劃、儲備、計劃、執行和評價各環節項目狀態。系統網絡結構如圖3所示。

圖3 系統網絡結構

基于技術中臺的人工智能平臺,提供維護、獲取圖譜的服務,可根據不同業務需求對概念、實體、圖譜和關系等進行管理。

針對項目關聯分析需求,通過項目規則庫建立,進行項目規范性審查等進行項目關聯分析,形成項目集群庫,如項目重復性項目集群等,并對外采用服務和微應用2種方式提供服務,對外提供微應用、微服務。

4 應用效果分析

4.1 標簽提取

結合實際工程案例,給出利用本文方法的標簽提取結果,如表2所示。

表2 標簽提取結果

4.2 項目特征抽取流程

以某工程特征抽取為例,說明特征抽取的具體流程,如圖4所示。

圖4 抽取流程

4.3 應用效果分析

通過集群分布式情況分析,可以對已構建的集群分析其單體項目資金來源、各專項中集群類項目的占比等功能。結果如圖5所示。

圖5 占比分析

分析關聯結果,得到2個集群的關聯結果,如圖6所示。

圖6 關聯關系分析

根據本文的分析結果,說明在設備關聯、功能關聯和電氣關聯方面,集群1體現出較強的優勢,而集群2在其他關聯方面優勢較強。

5 結束語

本文提出了基于知識圖譜技術的電網項目數據關聯分析方法。通過對特征抽取、知識圖譜構建、多維關聯分析進行論述,說明了電力項目工程在信息維護中的具體應用。通過對應用效果進行分析,可以對已構建的集群分析其單體項目資金來源、各專項中集群類項目的占比等功能。另外在功能關聯方面也展現出較強的優勢。說明了本文提出的分析流程和特征提取的有效性。

猜你喜歡
項目名稱集群圖譜
繪一張成長圖譜
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
海上小型無人機集群的反制裝備需求與應對之策研究
一種無人機集群發射回收裝置的控制系統設計
A Study of the Balanced Scorecard: The Rockwater Case
Python與Spark集群在收費數據分析中的應用
補腎強身片UPLC指紋圖譜
勤快又呆萌的集群機器人
2016年四川省財政補助健康服務業重點項目(二)
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合