?

基于深度學習和圖匹配的接線圖檢測與校核

2021-04-13 01:59李昊王杉耿玉杰王黎孫文昌苗純源
北京航空航天大學學報 2021年3期
關鍵詞:校核準確率人工

李昊,王杉,耿玉杰,王黎,孫文昌,苗純源

(1.國網山東省電力公司青島供電公司 電力調度控制中心,青島266002;2.國網山東省電力公司 電力調度控制中心,濟南250001;3.山東大學(青島)計算機科學與技術學院,青島266237)

在電力領域,傳統的廠站一次接線圖圖紙繪制和管理工作對電網工作人員有很高的要求,如需要對電網歷史及當前廠站設備非常熟悉且有豐富的工作經驗等,其面臨著兩方面的問題:①缺乏科學可校核的參考標準,很有可能導致廠站接線圖缺乏規范,進而含有潛在風險。②由于網絡新建、舊線改造、方式變更、檢修等原因導致主接線的元件組成、連接方式經常發生變化,要做到廠站接線圖的實時更新需要付出高昂的人工成本和管理成本。針對以上問題,其對自動化的需求越來越迫切。

電網主接線圖是電力系統分析的基礎,其廣泛用于電力系統中,如潮流計算、短路電流計算、可靠性分析、電網調度自動化等??紤]到高昂的人工管理成本,不少學者開發了電力系統專用的圖形編輯軟件,使得電氣工程圖生成效率大大提高,但其仍然依靠人工編輯,并且大部分圖形的生成、維護和更新都還是人工進行,電力工作人員使用CAD等繪圖軟件繪制人工維護的廠站一次接線圖,并進行人工校核,導致圖紙繪制及一次接線圖和人工一次接線圖的校核缺乏規范性。因此,廠站接線圖自動檢測、維護和智能校驗仍然是國內外眾多學者不斷深入研究的課題。

針對現存問題,本文提出了一種廠站接線圖自動檢測、識別和校核算法,實現了廠站一次接線圖的自動校核。算法分為2部分:①對廠站接線圖中的元器件、文字和拓撲關系等利用改進的深度學習和數字圖像處理相關的檢測和分類算法進行目標定位和識別。②基于圖匹配算法對電子廠站一次接線圖和人工維護的廠站一次接線圖進行元器件和拓撲關系匹配校核。

本文研究的內容突破了傳統人工識別、人工校核的方式,基于人工智能和數字圖像處理技術實現廠站一次接線圖的自動識別、自動校核,對接線圖中電器元件的名稱、坐標、拓撲連接關系等進行精準識別和校核。本文研究的內容不僅可以應用于廠站接線圖的自動識別、自動校核,也可以為其他領域的線路圖識別、校核任務提供思路。本文研究內容成果投入運行后,可以有效地提高圖紙繪制速度、準確度和標準化程度,廣泛應用到調控云的基礎數據輸入,為電力行業引入計算機領域的前沿技術,促進電力智能化的發展,切合泛在電力物聯網的建設要求。

本文的主要貢獻如下:①將目標檢測和識別算法應用到了電力廠站一次接線圖上,并且提出了一種多尺度融合的改進方式,實現了較高的檢測和識別準確率;②基于改進的圖匹配算法對廠站一次接線圖和人工維護的廠站一次接線圖進行匹配校核,解決了接線圖電器元件標號順序的問題,實現了較高的匹配校核準確率;③標注了一個小型電力廠站一次接線圖電器元件數據集。

1 相關工作

關于電力圖紙的自動繪制,早期的大多研究內容集中在基于地理信息技術平臺的圖形自動生成算法方面,主要是基于數據庫或空間數據引擎,實現數據搜索,進行拓撲分析和圖形自動繪制[1]。部分學者以典型接線形式的圖形編排為依據,提出了一種根據設備連接信息自動生成接線圖的經驗方法,即借助于Oracle數據庫提供的一套基于結構查詢語言(SQL)的方案和函數(Oracle Spatial)的網絡分析功能,對公共信息模型(CIM)數據中有關設備信息進行提取、編排實現廠站圖的生成[2],該方法有利于系統集成,但模板匹配算法依賴性強,不易擴展。后來又有部分學者提出了基于存量圖形自動生成廠站接線圖的原理。從基于CIM/G的拓撲分析出發,給出了存量圖形特征識別、特征提取及建立圖形特征庫的方法,結合特征評估,獲取廠站接線圖特征單元,并在特征單元的基礎上完成廠站接線圖的生成與繪制[3]。部分學者提出了通過采用節點布局的數學模型和線路走線尋路的函數算法來實現圖形布局[4],該算法可保證線路完全不相交,但這使得線路嚴重彎折,有時甚至無法完成連線工作。

國內的幾大電力自動化系統供應商在廠站一次接線圖自動生成和校核方面都進行了一定的嘗試,但能夠成熟應用的產品不多見。河北電網曾率先研發了一種基于典型接線方式的智能系統來實現廠站圖自動生成的軟件[5]?;趶S站主接線圖是有規范的且接線類型有限,朱永利等[5]提出了一種表示廠站拓撲結構的框架,接線圖的整體布局思想為:先畫面上下劃分,分割軸線作為主變中心;之后布置母線,再布置變壓器,最后布置線路等的布局,基于經驗規則歸納了20多種常見的接線類型,并利用這些規則進行各種接線類型母線和相關的特殊支路(如母聯、旁母、分段)的處理;主變布置有十幾種規則[5]。遺憾的是,該方法沒有考慮到變電站的數據統一建模,同時,其是基于經驗進行預知的布局布線,是一種窮舉試錯的智能繪圖方法,然而由于變電站規模不一,拘泥于細節的接線方式十分繁多,該方法的規則數量十分龐大。之后,華中科技大學將SVG圖形格式引入到了變電站圖形系統中,改進了朱永利等[5]的方法,并取得了很好的效果,但仍需要在作圖過程中定義圖元之間的連接關系,工作量依然很大。

經過多年的發展,各研究機構已經開始嘗試將人工智能技術和圖像處理技術應用于工程設計圖紙的分析與處理。例如,黃若航[6]利用基于Inception ResNetV2和Faster R-CNN算法的深度學習網絡,對經過預處理的熱力管道工程設計圖進行特征提取、目標定位和目標分類,得到一個基于工程圖紙元件數據集的目標檢測模型,之后利用光學字符識別技術(OCR)對目標檢測模型識別出的圖紙區域進行數據提取。同時,電力系統基于人工智能技術已做出多種技術創新,并取得了一定的效果。例如,尹思宇[7]在智能變電站的建設中,為解決海量電力設備紅外圖像數據的智能檢測問題,對紅外圖像進行預處理,分離出存在缺陷的電力設備,以深度學習為理論基礎提出了一種基于深度學習的電力設備紅外圖像缺陷識別分類的算法,進一步證明了基于人工智能的廠站一次接線圖自動生成、自動校核技術的可行性。

2 關鍵實現技術

為了實現人工維護的廠站一次接線圖自動校核,需要先進行廠站一次接線圖的自動識別,再進行匹配校核。實現廠站一次接線圖的自動識別,又分為接線圖中的電器元件識別,接線圖中的文字信息識別,接線圖中的連接線識別、拓撲連接關系識別3部分。具體流程如圖1所示。

圖1 廠站一次接線圖識別流程Fig.1 Identification flowchart of primary wiring diagram of plant and station

2.1 廠站接線圖中的電器元件識別

電器元件的識別是圖紙拓撲關系識別的基礎,其準確率關乎廠站接線圖自動生成和自動校核的精度。針對廠站一次接線圖中電器元件的檢測識別問題,經過分析發現,圖紙中各電器元件有以下特征:具有規定的形狀且接線圖中常出現的有17種類別;部分電器元件過小且形狀相似度極高;分布位置不定、方向不定、大小不一。要想做到廠站接線圖的準確識別,要求模型能夠精確找到元件所在位置并準確識別其類別。

2.1.1 基于YOLO的目標檢測算法

本文先采用One-Stage檢測的深度學習模型YOLOv3[8]來進行元器件的檢測識別。由于廠站接線圖的分辨率過大,直接將其作為網絡輸入會導致小目標的檢測效果較差。針對此問題,本文考慮將廠站接線圖切割成4份后進行目標檢測。將廠站接線圖輸入網絡,利用darknet-53[8-9]深層網絡來提取目標的特征,引入3個不同尺度的特征圖預測應對目標形狀的變化問題,優化提升目標檢測準確率和位置精度,再將4份檢測的結果進行拼接,得到電器元件的類別和坐標等屬性信息。其坐標信息公式如下:

式中:tx、ty、tw和th為模型的預測輸出;cx和cy為網格單元的坐標;σ表示Sigmoid函數;pw和ph表示預測前bounding box的大??;bx、by、bw和bh為預測得到的bounding box中心的坐標和尺寸。

對于超大分辨率的廠站接線圖來說,由于元件眾多且大小相差較大,直接使用YOLOv3來進行檢測效果欠佳,故而進一步考慮基于多尺度融合的檢測算法。

2.1.2 基于Faster R-CNN的多尺度融合檢測算法

Faster R-CNN[10]作為一種Two-Stage目標檢測算法,先使用特征提取網絡提取輸入圖像的特征圖,用于RPN(Region Proposal Network)和全連接層共享。再使用RPN網絡生成候選區域。在Faster R-CNN算法中,ROI(Region of Interest)池化層收集輸入的特征圖和候選區域,綜合這些信息后對候選區域提取特征圖,送入全連接層判定目標類別。最后利用候選區域的特征圖計算候選區域的類別,并通過回歸獲得檢測框的精確位置。

對于超大分辨率的廠站接線圖,為使算法適用于不同尺度的電器元件,本文提出了一種多尺度融合的檢測算法。使用整張接線圖和其分割4份后的小圖構建的數據集分別訓練出對應的Faster R-CNN模型,即大圖模型和小圖模型。對于大型的電器元件,大圖模型有更好的檢測效果,而對于細小型電器元件,則容易出現錯檢和漏檢的現象。通過計算兩者結果的交并比(IoU)來融合2種模型檢測的結果,使用小圖模型檢測后的細粒度的結果去彌補大圖模型的錯檢和漏檢,有效實現了對廠站接線圖中大小不一的電器元件的精準檢測和識別。圖2對目標檢測的模型框架進行了展示。

2.2 廠站接線圖中的文字識別

廠站接線圖中的信息復雜,字符信息是接線圖中信息提取的重中之重。廠站接線圖中的文字信息字體多樣、長度不同、位置多變、方向不定,字符也不局限于字母和數字,還有各種器件標識、說明等,個別地方也會出現線條密集、字符與線條黏連等情況,想要利用通用的光學文字識別模型直接來檢測廠站接線圖中的文字信息難度極大,效果不佳。因此,需要研究針對廠站接線圖的特定光學文字識別模型,以提升文字信息的識別準確率。

圖2 廠站接線圖多尺度融合檢測算法Fig.2 Multi-scale fusion detection algorithm for wiring diagram of plant and station

圖3 廠站接線圖文字識別流程Fig.3 Text recognition process of wiring diagram of plant and station

廠站接線圖光學文字識別的流程如圖3所示。先對廠站接線圖進行圖片預處理,使圖片有助于后續的文字識別,再進行文字檢測定位,獲取圖片中所有的文本框的位置坐標,之后進行識別前處理和文字識別部分,最終對識別的內容進行后處理,以提高識別的準確率。

2.2.1 基于Two-Stage的文字識別算法

先采用Advanced EAST[11]模型對文本區域進行檢測,再采用Tesseract OCR[12]模型對檢測出的文本區域中的文本信息進行識別,即文字檢測和文字識別相分離的兩階段算法。由于廠站接線圖是大分辨率圖片,采用分割為4份的做法來提高文字識別的準確率。在識別出結果后再進行合并。

Advanced EAST以VGG16[13]作為網絡結構的骨干來提取特征圖,之后將提取的特征圖采用U-Net[14]的算法進行合并,最終輸出檢測出文本框的置信度和坐標信息。Advanced EAST算法對于長文本和方向不定的文本區域有著較好的檢測效果。

Tesseract OCR識別過程分為2步:單字切割和分類任務。對檢測出的文本區域內的文本通過字符單元分割出單個字符。之后對每個字符進行分析,采用自適應分類器對分割出的字符進行分類。實現了對廠站接線圖中擁有字體多樣、長度不一、方向不定等特點文本的準確識別效果。

2.2.2 基于端到端的文字識別算法

端到端的文字識別模型融合文本檢測和文本識別2個過程,簡化文字識別的處理過程,同時加快識別速度。采用Attention-OCR[15]進行端到端的文字識別。在廠站接線圖輸入到Attention-OCR網絡之前,對文字區域使用Cascade R-CNN[16]模型進行文字分割。

Cascade R-CNN作為兩階段R-CNN檢測的多級擴展,通過級聯不同的IoU閾值檢測模型挑選對應質量的樣本進行訓練和回歸。使用Cascade R-CNN進行廠站接線圖的文本區域檢測,并根據其檢測出的結果分割出廠站接線圖中的文字用于Attention-OCR的文本識別。Attention-OCR主要利用了spatial attention[17]進行端到端的文字識別。通過卷積網絡提取特征并融合為一個大的特征矩陣f。計算圖片中文本的spatial attention值αt,其值越大代表該區域為文字區域的概率越大。通過αt抽取特征矩陣f中的文本區域特征,后續送入循環神經網絡(RNN)進行文本識別。

不同時間進行空間位置的加權公式如下:

式中:i和j為空間位置;t為RNN的時間維度;c表示特征圖的通道;ut,c為根據注意力模型給出的權重對不同位置的特征加權后的特征向量,作為模型的輸入。

網絡在時刻t的預測輸出字符最終為ct,其推導過程如下:

式中:xt為RNN在時刻t的輸入;ct-1為前一刻的預測字符;st為時刻t的RNN隱藏層的值;^ot為結合RNN輸出ot和注意力特征向量ut的時刻t的預測輸出;Wc為時刻t-1 RNN權重矩陣;Wo為時刻t RNN權重矩陣;Wu為注意力特征向量的權重矩陣。最終通過計算得出預測的字符ct。

由于廠站接線圖的分辨率過大,影響算法的處理速度和精度,同樣對廠站接線圖進行分割處理。將圖片分別切成4份和9份,由于圖片切割成4份后的切割處容易造成文本信息的缺失,而切割為9份則計算耗時較長。為了提高識別的準確率和速度,如圖4所示,考慮使用切成9份后的第2、4、5、6、8這5張圖片的信息來進行彌補。具體為使用Attention-OCR對5張圖片進行文字識別,根據其識別的結果和切割處的文本進行交并比的判斷來決定是否添加該圖片的信息,以對切割處遺失的信息進行增補。

得到初步識別結果后,根據先驗知識對結果進行后處理,以提高識別的準確率。

圖4 廠站接線圖文字識別分割Fig.4 Text recognition segmentation of wiring diagram of plant and station

2.3 廠站接線圖中的連接線、拓撲關系識別

在之前的基礎之上,可以得到廠站接線圖中所有電器元件的個體信息,但是元件與元件之間的連接關系卻無法得到,想要獲取整幅圖像的拓撲關系,需要依據元件之間的連接關系,因此,需要進行連接線識別及拓撲關系識別來找到元件與元件之間的聯系,完成廠站接線圖的識別任務。

關于廠站接線圖拓撲關系識別的工作,主要思想為:利用OpenCV的輪廓跟蹤技術[18],檢測出每段連接線所連元件,進而得到每個元件的連接關系。使用數字圖像處理技術,并與目標檢測技術相結合,對廠站接線圖進行拓撲連接關系檢測。

首先,對目標檢測的結果進行提取,將廠站接線圖目標檢測獲取到的各電器元件的位置、種類等信息保存至文件中。然后,對文件進行預處理,為區分開多個同種類部件,對同名元件賦予id屬性,并提取出各元件的位置和種類信息。

之后對廠站接線圖進行圖像預處理。使用高斯濾波平滑處理去除廠站接線圖中的無用信息和噪聲。通過灰度轉換將廠站接線圖由三通道圖像轉換為單通道圖像,提升對接線圖的處理速度。最終通過二值化處理使線條輪廓更加清晰,提高后續檢測的精確度及效率。其中,高斯濾波平滑處理中高斯函數的公式如下:

式中:(x,y)代表像素值的坐標信息;θ為正態分布的標準偏差。

對廠站接線圖數據的特征進行預處理即去除圖像中的目標元件,只保留除圖元外的其他像素信息,以便后續提取出元件間連接線的輪廓信息。

針對電力廠站接線圖像素信息的特點,使用輪廓跟蹤算法,將提取后的各輪廓坐標信息保存。同時,對保存的各輪廓進行篩選判斷,只保留與目標元件連接的連接線輪廓信息。即比較輪廓信息和提取的目標檢測的結果,只保留符合如下公式條件的輪廓坐標信息,并刪去進行判斷后不包含任何坐標信息的輪廓:

式中:xmin、xmax、ymin和ymax為目標檢測的坐標信息;x和y為各輪廓坐標信息。

最終根據提取的連接線外輪廓坐標信息和電器元件的種類、位置信息,解析出各連接線的連接關系,將連接線的連接關系轉換為元件的拓撲連接關系。

2.4 人工維護的廠站一次接線圖自動校核

本模塊將廠站一次接線圖和人工維護的廠站一次接線圖的拓撲檢測結果進行提取,將元件的連接關系進行抽象,抽象成2張無向圖,再通過子圖同構匹配算法對2張無向圖進行匹配,得到2張圖的映射關系,來對手工圖的錯誤進行核驗。同時,通過提取拓撲檢測時的線條輪廓序號來確定每個元件連接的相對位置關系,從而解決了2張圖在拓撲關系檢測時的序號命名問題。最終將子圖匹配算法與節點遍歷匹配方法的結果進行對比,驗證本文方法具有更高的準確率。

2.4.1 子圖匹配算法

將2張圖抽象化為無向圖后再進行匹配,最常見的方法是將2張圖中的節點進行遍歷,并根據節點值進行一一匹配,這種遍歷方法在數據規模較大時,時間開銷過大,并且不能很好地反映2張圖之間的拓撲關系。

在對廠站一次接線圖進行核驗時,使用的是子圖匹配算法,子圖匹配是無向圖中一種常見且實用的查詢方法,其優勢是:可以很好地利用節點間的連接關系,并可以大大減少遍歷所需的時間消耗。這里采用的子圖匹配算法是VF2算法[19],其是一種子圖同構算法,子圖同構算法用于識別圖中節點對之間的結構關系,屬于精確匹配。Foggia等[20]對Ullmann、SD、Nauty、VF和VF2等算法進行了比較,認為VF2算法對稀疏圖或小型圖的效率較高,對于二維網狀的規則圖,VF2算法的效率明顯高于其他算法。由于廠站接線圖的結構屬于規則圖,本文采用VF2算法會有更好的效率[21]。VF2算法通過在深度優先的搜索過程中利用高效剪枝的方法實現了子圖匹配,最優情況下時間復雜度為Θ(N2),最差情況下時間復雜度為Θ(N!N)[22]。

由于原始的VF2算法對于檢測結果沒有很好的容忍度,需要檢測精度足夠高時才會有效,對VF2算法進行改進,將查詢圖劃分為若干個不同的子圖,將劃分的子圖分別與原圖進行匹配。其中,劃分的子圖數量取決于前一步的拓撲關系識別得到的拓撲關系條目數。

2.4.2 接線圖校核過程

1)將2張圖(target與query)拓撲結構檢測的結果進行提取,將不同的元件命名為不同的節點,根據節點間的連接關系抽象為2張無向圖。

2)將query圖劃分為若干個子圖,所有子圖合并為一整個查詢圖集(querySet)。

3)提取在拓撲關系檢測中得到的線條輪廓序號,分別確定每個元件的相對位置關系。

4)使用VF2算法對querySet中的每一個子圖與target圖進行一一匹配,根據匹配的子圖數計算2張圖的匹配率。

5)將匹配率與最初設定好的匹配率閾值進行比較,若超過則手工圖無誤;若未得到2張圖的映射關系或匹配率未達到閾值,則手工圖有誤,2張圖不匹配。

2.4.3 分析與總結

本模塊主要對2張圖的拓撲關系進行匹配,來輔助手工圖的核驗工作,其中使用了VF2算法來對2張接線圖進行圖匹配。本文對算法進行了改進,解決了原VF2算法對數據容忍度差的問題;提取了拓撲檢測時的線條輪廓序號信息來確定每個元件的相對位置關系;解決了2張圖中元件序號命名不統一的問題。最終將該方法與傳統的遍歷方法進行對比,可以看出準確率有明顯提升。

3 變電站一次接線圖數據集構建

本文的數據集是選取某供電公司部分變電站的一次接線圖和人工維護的一次接線圖作為研究樣本。

3.1 數據集整理及標注

數據集共有93張變電站一次接線圖,其中電子圖79張,人工圖14張,在圖5和圖6中展示了電子圖和人工圖的樣例。對數據集圖片進行人工標注,標注為pascal voc格式。標注的內容是廠站一次接線圖中的電器元件類型和電器元件位置。通過數據標注軟件labelImg對圖片中各類電器元件進行標記框選,整理為xml文件作為接線圖圖片訓練的標簽。標注類別共17類,分別為避雷器(blq)、變壓器(byq)、電抗(dk)、電力電感器(dldgq)、斷路器(dlq)、電容(dr)、刀閘(dz)、隔離手車1(glsc1)、隔離手車2(glsc2)、接地(jd)、接地刀閘(jddz)、母線(mx)、電壓互感器(pt)、熔斷器(rdq)、所變(sb)、手車開關(sckg)、忽略部件(ignore)。數據集大約共有11 500個標注框。

圖6 人工圖示例Fig.6 Example of manual wiring diagram

3.2 數據集處理

標注好的數據集,廠站一次接線圖分辨率過大需要做分割處理,因此對于數據集中的接線圖,采取分割圖片及其對應xml文件的方法構建出新的分割圖數據集。其中,分割圖數據集共有316張電子圖和56張人工圖,類別是和接線圖相同的17類。因此,數據集可以分為2部分,即接線圖原圖數據集和分割圖數據集,以便應用于改進的檢測算法中。

4 實驗結果與分析

實驗環境包括:Ubuntu 16.04.6 LTS操作系統、NVIDIA TITAN XP 顯 卡、12196MiB 顯 存、CUDA10.1、OpenCV2.4.9等。

4.1 廠站一次接線圖電器元件識別的實驗結果

廠站一次接線圖中的電器元件識別部分分別采用基于Paddle深度學習框架的YOLOv3算法和基于Tensorflow框架的Faster R-CNN模型。

對于廠站一次接線圖中的電子圖,采用2種數據集的形式,分別為接線圖原圖數據集和每張接線圖分割為4份后的分割圖數據集。對于YOLOv3,直接使用分割圖的數據集進行訓練,訓練集244張,測試集72張。對于Faster R-CNN模型,先采用原圖數據集進行訓練,其中訓練集63張,測試集16張;再采用多尺度融合的檢測算法,使用分割圖的數據集訓練出小圖模型,并將兩者的結果進行融合。

由于電子圖和人工圖略有差異,為了提高核驗的效果,需對模型進行finetune,使其更加適用于人工圖的電器元件檢測。對于大圖模型,采用11張人工圖作為訓練集,3張作為測試集。對于小圖模型,采用44張分割的人工圖作為訓練集,12張作為測試集。在基于訓好的電子圖的模型權重條件下,使用較少的人工圖數據集進行finetune。為了防止過擬合,使用更低的學習率0.0001進行訓練。

在訓練的過程中,初始學習率設為0.001,momentum設為0.9。YOLOv3使用darknet-53的預訓練權重,Faster R-CNN選擇ResNet101的預訓練權重。YOLOv3在迭代140 000 epoch后,loss趨于穩定。Faster R-CNN在迭代100 000 epoch后,loss趨于穩定,數值在0.3左右,finetune迭代70 000 epoch后loss穩定在0.3左右。表1為YOLOv3和Faster R-CNN實驗結果的對比,采取的評判標準是檢測準確率。將IoU大于0.5且類名正確的樣本視為正樣本,通過計算正樣本和總樣本的比作為檢測準確率。其中,17種待識別的器件在數據集中的數量分布并不均衡,表1中的平均檢測準確率是通過計算測試集中圖片的所有種類器件正樣本和總樣本中的比得來的。雖然YOLOv3的檢測準確率結果中有7種器件優于Faster R-CNN融合算法,如隔離手車、所變、電壓互感器等器件,但這些器件在接線圖中出現的頻率并不高,所以YOLOv3的檢測效果并不如Faster R-CNN融合算法。根據得出的平均檢測準確率結果可以看出,多尺度融合后的Faster R-CNN算法效果最佳。

4.2 廠站一次接線圖文字識別的實驗結果

廠站一次接線圖中的文字、數字識別部分分別采用了2種方法。兩階段的識別方法有Advanced EAST和Tesseract OCR。端到端的識別方法有Attention-OCR方法。

首先,采用Advanced EAST模型和Tesseract OCR模型。采用標注文本框的數據集訓練基于Keras框架的Advanced EAST模型;獲取出接線圖文字區域圖片,通過jTessBoxEditor對文字圖片中的每個字符進行標注,使用Tesseract OCR構建接線圖的專屬字庫。

然后,采用端到端的Attention-OCR方法,其基于Tensorflow框架,其中Cascade R-CNN采用ResNet101-FPN作為骨干網絡,預訓練權重來自ICDAR2017RCTW[23]數據集。Attention-OCR使用InceptionV4[24]作為骨干網絡,預訓練模型由ImageNet數據集得來,之后通過多個包含不規則多方向的文本數據集(如LSVT、COCO-Text、ICDAR2017等)訓練模型。

表2為2種方法的結果對比。文本區域檢測采用目標檢測的評判標準,以IoU大于0.5的樣本判斷為正樣本。文本識別部分以每一個字符的準確率作為評判標準??梢钥闯?,無論是文本區域檢測還是文本識別,Attention-OCR方法的效果都要優于Advanced EAST和 Tesseract-OCR 的結果。

表2 文字識別實驗結果對比Table 2 Comparison of text recognition experiment results

4.3 廠站一次接線圖拓撲關系識別的實驗結果

廠站一次接線圖拓撲關系識別主要采用的是圖像處理技術,其拓撲關系識別的準確率較為依靠電器元件識別的準確率。對于電子圖和人工圖,在進行圖像預處理的過程中選擇了更加適用自身的不同參數。對每張測試圖片的拓撲關系進行人工標注,在對測試圖片進行拓撲關系準確率計算后得出準確率約為87.7%。其具體情況如表3所示。

表3 拓撲關系識別測試結果Table 3 Test results of topological relation recognition

4.4 廠站一次接線圖自動校核的實驗結果

人工維護的廠站一次接線圖自動校核技術采用的是子圖匹配算法,選用的子圖匹配算法是VF2算法。由于子圖匹配算法本身存在對數據容忍度差的問題,因此對算法進行了一定程度的改進。通過自動校核技術來對接線圖及其對應的人工圖的人工校驗提供輔助,輸入為2張圖的拓撲關系識別結果,輸出為2張圖的匹配率。這里沒有使用改進前的VF2算法的匹配結果,因為原VF2算法用于拓撲關系匹配時,只能用于判斷查詢圖是否為目標圖的子圖。由于拓撲關系識別不能完全精準地還原2張圖的拓撲關系,一旦有一個節點不匹配,VF2算法輸出的結果便是0,這也是對VF2算法進行改進的原因之一。從測試數據中挑選出4組清晰且完好的測試圖,分別對這4組數據進行測試,分別使用遍歷的方法及改進的VF2算法2種方法,通過計算匹配的子圖數與總子圖數的比例得到其對應的匹配率,結果如表4所示??梢钥闯?,改進的VF2算法在8組數據上的匹配率均在50%以上,明顯高于遍歷方法匹配的結果。將匹配的閾值設定為0.6,即匹配率超過該閾值則判定這一組電子圖與人工圖正確匹配,否則將判定為錯誤匹配。此時,改進的VF2算法對于廠站一次接線圖的自動校核對數據有更好的穩定性和更好的準確率,其準確率為62.5%,而遍歷方法的準確率較低只有25%(即8組結果中只有2組的匹配率高于閾值0.6)。

將電子圖和人工圖的匹配結果可視化,綠色框表示匹配部分,未匹配的元件在原圖中用紅框的形式標出,匹配可視化結果如圖7和圖8所示。

表4 兩種方法的匹配率結果Table 4 Matching rate results of two methods

圖7 電子圖匹配結果Fig.7 Matching results of electronic wiring diagram

圖8 人工圖匹配結果Fig.8 Matching results of manual wiring diagram

5 結 論

1)本文實現了廠站一次接線圖的自動識別和自動校核,極大提高了電力廠站一次接線圖繪制和管理工作的自動化程度。

2)對廠站一次接線圖中電器元件的目標檢測、文字識別和拓撲關系檢測均可達到較高的準確率。

3)改進的VF2算法相比于節點遍歷的匹配方法,可以提高37.5%的準確率,大大降低了人工干預的成本。

目前,對于廠站一次接線圖的自動識別和自動校核工作仍有些許不足。對接線圖電器元件的目標識別和文字識別仍需繼續提高準確率。對接線圖的拓撲關系識別及自動核驗需要加快對圖片的處理速度,提高廠站一次接線圖的自動識別和自動校核的效率。未來將及時關注最新的目標檢測、文本檢測和文本識別等算法的發展,改進方法提高檢測和識別的準確率。對于拓撲關系識別和自動核驗,將繼續改進算法提高對檢測結果的容忍度,提高識別和核驗的效率。

猜你喜歡
校核準確率人工
人工3D脊髓能幫助癱瘓者重新行走?
整車總布置DMU智能校核方法
飛機金屬加筋壁板結構強度校核軟件設計與實現
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
人工“美顏”
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
淺析電梯預留裝飾重量在設計中需校核的一些關鍵點
人工制冷
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合