?

基于深度主動學習的示功圖診斷方法及應用

2023-12-20 04:53李漢周段志剛朱蘇青葉紅張曉娟
石油化工自動化 2023年6期
關鍵詞:示功圖類別工況

李漢周,段志剛,朱蘇青,葉紅,張曉娟

(1. 中國石油化工股份有限公司江蘇油田分公司 石油工程技術研究院,江蘇 揚州225009;2. 中國石油化工股份有限公司江蘇油田分公司 工程技術管理部,江蘇 揚州 225009;3. 中國石油化工股份有限公司江蘇油田分公司 采油一廠,江蘇 揚州225265)

有桿抽油機是油田開發的主要設備之一,其作業工況極大程度地決定了采油效率[1]。然而,抽油機在采油作業過程中易受一些干擾導致作業異常,需要工程人員能及時作出診斷并處理作業異常。常見的作業異常包括: 不平衡,供液不足,凡爾失靈,上/下行遇阻和氣體影響等20多種,表現形式多樣,成因也錯綜復雜,因而實現作業故障的快速診斷是一個巨大的挑戰[2]。

目前,國內對于抽油機的故障診斷主要依據采油工程師對懸點示功圖的分析和油井管理經驗來確定[3]。懸點示功圖,也稱地面示功圖或光桿示功圖,是抽油井采油現場采集的第一手資料。示功圖不同的幾何形狀代表作業的不同工況,無異常的示功圖為平行四邊形,如果抽油機發生供液不足,則會導致作業增載正常但是卸載會變慢,此時示功圖會在右下角有缺失,形象表現為手槍狀,如圖1所示。

圖1 正常示功圖與供液不足示功圖比較示意

早期的示功圖自動診斷方法是通過對示功圖的圖形特征進行歸納總結形成專家系統[4-5],構筑耗時且難以解決復雜問題[6];基于SVM等傳統分類器的判別式方法可以獲得不錯的效果[7],但同樣受限于合理的特征選擇。因此,本文嘗試基于深度學習將示功圖的故障診斷問題轉化為圖像分類問題,在無相關專家知識和領域信息的前提下,通過神經網絡自動抽取特征來實現相對傳統方法的有效提升。

然而,深度學習這類有監督學習方法需要大量有標簽數據作為訓練支撐,訓練集的數量決定了模型的精度,訓練的質量則影響模型的魯棒性。在工業場景中,示功圖數據庫往往可達千萬級別的規模,從如此海量的樣本集中采樣并標注出20多個類別的數據集,其難度和成本均是巨大的挑戰,尤其是一些較為罕見的工況如桿斷等,從千萬樣本中找出寥寥數個無異于大海撈針。因此,本文基于遷移學習的理念,從預訓練卷積神經網絡在示功圖數據集上微調,降低初始化模型對于樣本數量的依賴。此外,本文也提出了一種基于主動學習的示功圖數據挖掘方案,一方面基于傳統的圖形變換方式,對每個樣本增強多個平行樣本;另一方面,通過模型從數據庫中自動篩選出新的樣本做增量學習。實驗表明,通過遷移學習與主動學習的結合,模型診斷精度獲得明顯提升,尤其對長尾類別圖形提升更為顯著。本文的主要貢獻如下: 基于預訓練深度卷積網絡通過遷移學習構建示功圖診斷模型,實現了對油桿抽油機作業工況的實時診斷;基于主動學習以自動化樣本挖掘的數據增強方式,不斷擴展訓練集,極大程度地減少了人工標注的難度與成本,帶來了穩定的性能提升。

1 示功圖診斷算法研究

作者研究項目采用“圖形+數據”復合診斷,“圖形”對應示功圖,“數據”指電參數、套壓等生產參數,將示功圖的故障診斷問題轉化為基于深度學習的圖像分類問題。

1.1 基于示功圖的作業診斷方法

示功圖作為油田作業診斷的第一手資料,一直受到國內外學者的廣泛關注[7-8]。早期學者將專家系統用于抽油機工況診斷,利用領域知識與經驗建立了典型示功圖的規則集合的知識庫,可以對示功圖使用推理機解析規則進行識別,實現識別診斷[9]。周寧寧等[10]通過模糊理論實現示功圖診斷,解決示功圖表示不明確的問題,將特征缺失面積與缺失行程定義為隸屬變量,設計隸屬函數求解出最佳隸屬度作為樣本類別。楊洋等[11]基于灰色理論,將經過歸一化后消除量綱、尺度的示功圖利用網格法得到灰度矩陣,再求解其灰度關聯特征得到6個元素的特征向量,最終與基準庫的11種典型示功圖特征作灰度關聯分析,從而實現診斷。Sun等[12]通過不變矩理論提取示功圖的幾何特征作為輸入,分別使用BP神經網絡[13]和SVM作為分類器識別示功圖類型,其中SVM表現更好,83%的正確率高出BP神經網絡5個百分點。而隨著深度學習的發展,仲志丹等[14]通過稀疏自編碼器自動提取示功圖圖像特征,并通過softmax分類器做分類,在其測試集上獲得了98%的準確率[15]。

1.2 基于卷積神經網絡的圖像分類

近年來,隨著數據規模與計算能力的同步增長,深度學習在以機器視覺和自然語言處理為代表的人工智能領域接連獲得了重大突破。相較于傳統機器學習方法,深度學習無需手動設計特征,通過監督信號對網絡參數優化即可獲得較好的樣本表示。卷積神經網絡是一種有效的網絡結構,通過卷積核對輸入圖像進行特征抽取,池化層進行采樣,使得模型既對圖片的平移、放縮等變化具有一定程度的抗干擾能力,也可以有效降低網絡的復雜性,減少參數量,是處理圖像問題的主要手段之一。Alex等[16]提出的AlexNet首次將深度卷積網絡應用于大規模圖像分類ImageNet上就大幅度超越了傳統算法。谷歌團隊在ILSVRC2014上發布的GoogleNet[17]基于Network in network思想進一步提出Inception模塊以稠密組實現了有效降維,減少了模型參數的同時也減輕了過擬合問題。深度殘差網絡ResNet的出現[18],通過殘差結構使得模型不會因為網絡過深而產生模型退化等問題,將網絡深度成功地加深到152層,逐步產生了規模越來越大的超大模型[19]。

隨著網絡深度的增加,研究者開始關注網絡中不同層的作用,并發現大多數圖像模型的底層網絡通常都包含著關于圖像的基本特征,如顏色、形狀、紋理等。因此,研究者提出了遷移學習這一范式[20],通過在現有的大規模數據集上預訓練,學習數據的基本特征,再遷移到目標數據集上進行微調訓練。相較于隨機初始化參數,微調模型收斂速度更快,準確率更高,且僅在少量有標簽數據的情況下就可以獲得不錯的效果。

1.3 主動學習

數據增強是提高數據數量與質量的重要方法,是用有監督學習處理問題的標準范式之一。在圖像處理領域,最經典的增強方式是一系列圖形變換方法,如平移、翻折、旋轉、放縮等方式,由于圖形經過變換后,依然保留著原本的語義信息,因此可以作為一個新的訓練樣本對模型進行訓練,使模型學習到目標類別的本質特征;缺點是所增強樣本多樣性較差,對模型提升有限。除了從輸入圖像的角度數據增強之外,還可以基于圖像編碼之后的結果進行增強,具有代表性的工作就是混合方法,該方法將屬于同類別的樣本特征按照不同比例混合形成新的樣本。而隨著圖像生成領域的發展,部分學者另辟蹊徑通過圖像生成的方法,基于對抗神經網絡隨機生成不同類別圖像,但是由于生成質量不一,隨機性較高,往往難以產生令人驚艷的效果。

主動學習同樣是一種高效的數據增強方法,不同點在于,上述三種方法只能相對固定機械地按照預先設定好的邏輯做增強,屬于“被動”學習。而主動學習基于模型已學習到的知識能夠對于訓練過程做自適應優化,模型主動從訓練數據集中篩選出更加具有價值的數據樣本,經專家標注后再學習,能更好地適應更大規模的數據,既減少標注量和對應的人工成本,也能補足初始訓練集的部分缺陷,提高模型精度。傳統的主動學習算法包括: 委員會查詢、基于數據池的主動學習方法以及基于數據流的主動學習方法。委員會查詢算法類似集成學習,通過不同數據分布的數據集訓練出多個不同參數的模型,基于投票的方式決定對哪些數據做標注;數據池方法與數據流方法的不同點在于,前者從維護的一定量數據池中選擇最有價值的一部分數據再標注,而后者則針對輸入的每一個數據樣本做判別。本文針對示功圖分類問題提出了一種新的基于數據流的主動學習方法,先通過深度學習模型從海量數據中初步篩選出一部分目標樣本,再基于數據流主動學習,從而以最小的代價挖掘更多有效數據。

2 功圖故障智能診斷模型

2.1 模型結構

示功圖診斷是將示功圖分類至正常、不平衡、氣體影響、供液不足、凡爾失靈等26個類別中,屬于圖片多分類問題。常規示功圖數據在數據庫中以二進制編碼的形式保存,經由Python程序解碼后在畫布上作圖而形成圖片,保留橫縱坐標軸為模型識別提供尺度信息,并以224×224的分辨率保存在本地,模型結構如圖2所示。

圖2 功圖故障智能診斷模型結構示意

整個模型的輸出通過中間的預訓練模型進行特征提取[21],預訓練模型內部包括多個殘差塊,再通過全連接層將特征向量變成目標分類的概率分布實現模型預測,最后通過以softmax激活函數將概率分布歸一化,獲得最終的分類結果。

2.2 訓練集擴充

數據增強是避免模型過擬合的有效方式,針對圖片的常見增強方式,包括基礎的圖形變換,如平移、翻折、旋轉、放縮等方式,由于圖形經過變換后,依然保留著原本的語義信息,因此可以作為一個新的訓練樣本對模型進行訓練,使模型學習到目標類別的本質特征。除了從輸入圖像的角度數據增強之外,還可以基于圖像編碼之后的結果進行增強,具有代表性的工作就是mixup方法,該方法將屬于同類別的樣本特征按照不同比例混合形成新的樣本。此外,部分學者另辟蹊徑通過圖像生成的方法,基于對抗神經網絡隨機生成不同類別圖像,但是由于生成質量不一,隨機性較高,往往難以產生令人驚艷的效果。訓練集擴充示意如圖3所示。

圖3 訓練集擴充示意

2.3 特征抽取器

該項目探究了不同殘差網絡作為特征抽取器的效果,包括ResNet,DenseNet與MobileNet等。ResNet率先將殘差結構引入深度神經網絡中,將網絡深度首次突破100層,并在2015 年的ILSVRC(imageNet large scale visual recognition challenge)中取得了冠軍,是目前最經典的圖像處理網絡之一。DenceNet[22]是對ResNet的一次拓展,相較于ResNet每個殘差塊是前后直連,DenceNet提出來一個密集連接機制,即網絡中的所有層都互相連接,具體而言,每一層網絡都會接受其前面所有層的輸出作為其輸入。在同等參數量時,具有比ResNet更好的性能。MobileNet[23]是一種輕量級的神經網絡,采用深度可分離卷積代替普通卷積操作,以降低模型的計算量和參數量。MobileNet在盡可能保證圖像分類精度的同時,極大地縮短了網絡推理速度,是追求實時性應用的不二之選。

三個模型對于不均衡的樣本,ResNet具有最強的魯棒性,DenceNet最差,可見DenceNet各個層的充分連接帶來的強大擬合能力在此處反而使得模型忽略了少數樣本的特征。MobileNet更加簡潔,因此效果更好,但是相較于ResNet更為強大的遷移學習能力,在少樣本上自然稍遜一籌。

分類層通過多層感知機,將網絡提取出的圖像特征映射到N維向量,每個維度代表著該圖片屬于對應類別的概率。通過Softmax對概率分布進行歸一化,并以交叉熵作為損失函數進行最小化優化,如式(1),式(2)所示:

(1)

(2)

式中,zi——模型預測該圖片屬于第i類故障的初始概率值;pi——預測概率;qi——真實概率;Loss——對應待優化的交叉熵損失函數,對于每一類故障的概率值,計算預測概率pi與真實概率qi的交叉熵。

3 實 驗

3.1 實驗設置

首先,作為特征抽取的預訓練模塊取自ResNet-152,該部分網絡參數隨著整個模型一同訓練,基于微調的原理,學習率設為1.0×10-4,使得模型主要更新任務相關部分而不至丟失預訓練信息。優化器為adam,該優化器可以自適應學習率,具有較好的收斂效果。訓練樣本的批大小為64,模型在該批大小下收斂較為穩定,且能充分運用顯存提高推理效率。由于是故障診斷模型,以準確率作為任務的評價指標較為合適,各類別的綜合評價指標為宏平均與微平均,其中宏平均是先對每一個類統計指標值后求算術平均值,微平均是根據樣本數量采用加權的方式再取平均,可以更好地衡量模型對不平衡樣本的性能。詳細試驗參數設置見表1所列。

表1 試驗參數設置

3.2 數據準備

實驗數據取自某油田作業數據庫,人工定義了22個示功圖類別,取其中7種典型示功圖的實驗結果進行分析,包括正常、氣體影響、抽噴、供液不足、不平衡、氣鎖和桿斷。整個數據集以3∶1的比例劃分為訓練集和測試集,每個樣本通過圖形變換的方式進行數據增強,每張圖片的變換方式包括旋轉、放縮、裁剪,因此可以使原數據集擴大3倍。但變化不包括翻折,因為經過翻折的示功圖有可能發生語義變化,如供液不足是右下角缺失,翻折之后則變成了左下角缺失,容易對模型產生誤導。具體的數據分布見表2所列。

表2 實驗數據分布 個

從表2可見,正常、供液不足等類別的樣本初始數目就較多,且在數據庫中的存量也較多,所以經過新樣本挖掘之后,樣本數量有著千倍的漲幅。而不平衡、氣鎖、桿斷等類別,在初始化時只有20多個,甚至到個位數,處于完全不可訓練狀態,而在經過挖掘之后,配合數據增強也達到了可以正常訓練的程度。

3.3 實驗結果與分析

具體的實驗結果見表3所列。

表3 不同模型的實驗對比 %

表3展示了3組不同的實驗,前2組實驗均采用項目最初的少量人工標注訓練集。第1組實驗“從頭初始化”代表著不使用預訓練模型,第2組實驗“微調”代表著通過預訓練模型進行遷移學習。當模型參數從頭初始化時,模型的平均精度只有70%左右,且集中在氣體影響和不平衡兩個類別上,這是由于這兩種示功圖特點鮮明,使得模型記憶住了該特征而不是學習到該類別,對于數目較少的氣鎖甚至完全無法識別。而通過遷移學習構建的分類模型即便在訓練數據很少的情況下已經可以取得不錯的效果。正常、供液不足、氣體影響等樣本較為充足的類別,其平均準確率已經超過80%,但是少樣本的類別氣鎖受限于樣本數量的嚴重不足,準確率只有60%,依然處于嚴重不可用狀態,可見即便是遷移學習也不能完全替代有標注數據的作用。

而隨著新樣本挖掘與增量學習的迭代,第3組實驗“增量微調”模型在各個類別識別效果均有不同程度的提升,達到了97%的平均準確率,尤其是氣鎖,從60%到94%提升了34%,達到了工業場景可用的程度。

4 應用效果

基于功圖故障診斷的工況類型共分26類,在該油田的油田A一廠和二廠階段共出現21類故障,經人工審核統計見表4所列。表4中的工況井數包含誤報井數,不含漏報井數;正確率=(工況井數-誤報井數)/(工況井數+漏報井數)×100%;正常工況里誤報的18口井數主要屬于油管漏或洗井這一類;工況類型共有28類包括基于功圖的26類加停機和待核實的。從表4中可以看出,絕大多數工況診斷的正確率很高,誤報井數、漏報井數都比較少。固定閥漏失、碰泵生產、油管漏或洗井、上行遇阻的診斷正確率較低的原因是這些工況的井數較少。

表4 基于功圖故障診斷的統計結果

5 結束語

本文提出了一種基于深度學習的示功圖診斷方法,針對示功圖數據標注的成本與難度,一方面通過遷移學習的方式降低了模型訓練對于大量有標注樣本的依賴;另外一方面提出了一種少樣本數據挖掘范式,以增量學習的方式,不斷迭代模型,提高模型的上限。實驗表明,該方法可以在滿足模型性能的同時,有效地控制數據標注的成本,在工業場景下具有較強的借鑒意義。

猜你喜歡
示功圖類別工況
熱網異常工況的辨識
不同工況下噴水推進泵內流性能研究
基于非負矩陣分解的高速列車走行部工況識別
服務類別
油井示功圖相似性的研究與應用
低水頭工況下溪洛渡福伊特機組振擺工況的探討
論類別股東會
基于示功圖的往復壓縮機故障診斷技術
中醫類別全科醫師培養模式的探討
淺談示功圖及示功圖分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合