?

基于極值分析的鉆井參數刺峰噪點數據識別研究

2024-01-14 02:33梁欣怡劉世杰柴曉武
錄井工程 2023年4期
關鍵詞:噪點幅度極值

宋 濤 陳 添 梁欣怡 田 宇 劉世杰 柴曉武

(①中國石油渤海鉆探第一錄井公司;②中國石油渤海鉆探工程技術處;③中國石油長慶油田分公司第一采油廠)

0 引言

石油天然氣鉆探過程中,確保優快安全施工是非常重要的工作。為此,在鉆井施工中,井場部署綜合錄井服務,通過諸多傳感器實時感知鉆井作業過程中各環節的物理量,獲得大量實時鉆井參數數據,用于實時反映鉆井作業的各種工況。通過對鉆井參數數據的實時在線智能分析,可以自動探測到萌芽中的異常,并及時向鉆井操作人員發出預警信息,為鉆井優快安全施工提供有力保障。

綜合錄井儀鉆井參數記錄系統以一定的頻率采集并記錄相關傳感器測量的數據信息,采樣周期通常為1 s 或5 s,因此鉆井參數數據具有時序性和間斷性的特點。鉆井參數源自鉆井現場各類傳感器的實時記錄,受鉆井現場的復雜性、傳感器的靈敏性等多方面因素影響,各個傳感器所測得的鉆井參數數據會隨著時間的推移而呈現出數值波動,有時也會產生較多明顯的異常離群數據點[1]。這些明顯的異常離群數據點在曲線中偏離正常波動趨勢過大,表現為顯著不同于其他數據分布的數據對象[2],本文稱其為刺峰噪點數據。

鉆井異常事故的智能化報警主要依托于對單項或多項鉆井參數變化趨勢以及各項參數之間協同變化趨勢的分析,刺峰噪點數據會對參數曲線上升或下降變化趨勢的分析產生嚴重干擾。若鉆井參數數據中僅有極少噪點數據,對智能化報警系統的整體準確預警不會有較大影響,但事實上,受鉆井現場的諸多復雜因素影響,這類刺峰噪點數據時常產生,數據質量問題較為突出,可能導致智能化報警系統錯誤報警,有效識別并剔除這些刺峰噪點數據,對于鉆井施工過程中智能化報警系統等大數據智能診斷具有重要作用。因此,研究并應用新的大數據噪點數據識別技術具有非常重要的意義。

1 刺峰噪點數據識別研究現狀

本文探討的刺峰噪點數據是指在各鉆井參數曲線中出現的明顯向上或向下突變,超出大多數數據波動范圍的尖峰狀數據點,且在該類數據點的一定鄰近時間內未出現與之相類似的數據點,換言之,即為鉆井參數曲線上與大多數數據都不相鄰的孤立的數據點。刺峰噪點數據有兩個顯示特征:一是其波動幅度比其他大多數數據的波動幅度都大;二是刺峰噪點數據在鄰近一段時間內未頻繁出現,數據點相對孤立。如圖1 所示,圖中藍色方塊數據點即為典型的刺峰噪點數據。

圖1 典型的刺峰噪點數據

鉆井參數曲線的散點分布形式多種多樣,同樣鉆井參數中的噪點數據也是多種多樣,導致實際工作中難以準確、全面識別所有噪點數據。因此,本文僅致力于解決相對明顯的刺峰噪點數據,對于其他界定模糊的噪點數據則不做深入研究。圖2中所示的藍色方塊數據點不能識別為刺峰噪點數據,原因在于類似數據點頻繁出現,可能是鉆井現場某種真實信息的客觀反映,若將該類數據點直接剔除,可能會增大鉆井參數數據失真的風險。

圖2 鉆井參數散點圖

異常值或離群點數據分析是機器學習領域經常遇到的問題。拉依達法、格魯布斯法、肖維勒法等方法均采用均值或方差以統計學方式識別常規型異常離群噪點數據[2-3];岳峰等[4]使用基于數據密度分布的方式有效檢測聚類邊界點數據;劉帆[5]使用深度學習方法識別并去除圖像中的噪聲。在石油鉆井領域,對鉆井現場的環境噪聲治理與研究較多,但對鉆井參數離群噪點數據研究很少。本文以鉆井參數為樣本,借鑒前人的方法經驗[1-13],對基于極值分析的鉆井參數刺峰噪點數據識別方法進行探討研究,以供業內技術人員參考。

2 刺峰噪點數據識別

一般來講,對于一組離散樣本數據集,在數據正常趨勢線附近的離群刺峰噪點數據首先是偏離正常趨勢范圍的極值數據。因此,基于極值分析的鉆井參數刺峰噪點數據識別方法,首先研究篩選離散數據樣本的極值集,然后在極值集的基礎上進行離群噪點識別,并進一步對噪點附近的數據進行再識別,剔除正常數據點,最后形成噪點數據集并標記。

2.1 極值點算法分析

通過鉆井實時數據分析發現,若干個連續時間的采樣點上表現為上升或下降趨勢波動,之后發生相反趨勢波動,即使是較小幅度的變化也會表現出上升或下降的曲折波動。在連續的數據曲線中,波峰或波谷即為函數的極大值或極小值。鉆井參數曲線的波動情況也與之相似,圖3為某井某項鉆井參數在近1 min內的波動曲線,其中由黑色實線串連在一起的黑色散點為采集的鉆井參數數據,紅色圓點為曲線中分段波峰極大值點,綠色圓點為分段波谷極小值點,藍色虛線為極大值與極小值的串連線。該圖中黑色的原始鉆井參數曲線相對較平緩地上升或下降,波動較小。曲線中的各鉆井參數極大值點與極小值點是曲線局部波動的上限和下限,并且由較少極值點串連的藍色虛線所反映的曲線趨勢同原始曲線的趨勢相同。由此可見,參數曲線中鉆井參數極值點是曲線波動的邊界,參數曲線可反映變化趨勢,其數據分析具有同等價值。

圖3 鉆井參數波動曲線

通過分析可知,刺峰噪點數據的波動幅度常大于正常極值點數據的波動幅度,故本文所研究的刺峰噪點數據識別以極值點數據集為基礎,且對于常規離散點數據而言,滿足公式(1)則為極值點:

式中:ni為某一常規離散點數據;ni-1為ni前一個點的數據;ni+1為ni后一個點的數據。

但離散點數據還可能存在兩個數據點相等的情況。如與圖3 對應的極值數據統計(表1)顯示,11:45:09 數值為9.2,至11:45:10、11:45:11 兩個數據點均為9.3;至11:45:14數值降為9.1后,連續出現兩個相等的9.0,至11:45:19 出現極小值8.7。對于鉆井參數曲線中多個連續相等的數據點,本文取最后一個上升或下降的拐點值為極值點,如表1 中11:45:23的8.8為極大值。

表1 極值數據統計(對應圖3)

依據以上分析,極值點集可依據公式(1)采用計算機編程快速自動判斷識別建立。

2.2 刺峰噪點數據識別算法研究

刺峰噪點數據識別過程首先是識別極值點集,進而識別噪點數據。噪點數據的識別基于實際的鉆井參數數據極值點來分析,先對噪點的特征進行分析,區分出特殊情況,為計算機算法提供理論依據,最后列出計算機可編程噪點識別的數學邏輯算法。

2.2.1 刺峰噪點數據特殊情況分析

通過分析大量由于噪點數據影響而造成的錯誤處理結果,總結出噪點數據的總體特征為:曲線噪點數據的波動幅度遠大于大多數正常極值點數據的波動幅度,遠離主擬合趨勢線,且曲線的噪點數據波動幅度與曲線數據原值呈一定的比例。

但在實際散點曲線中,也存在如圖4 所示的特殊情況,即數據波動幅度雖然大,但仍屬于正常數據曲線波動。圖4中紅色圓點為曲線中的極值點,從第8 s到第12 s 之間,鉆井參數數值由6.66 下降至5.15,其波動幅度比鄰近極值點的波動幅度大出許多,但這種曲線波動屬于因作業工況調整引起的數值正常波動,該類波動幅度大的數據點不能作為噪點數據處理。

圖5給出了另外一種特殊情況,直觀可見:雖然第8 s 的數據點值90.41 的波動幅度比兩側數據點值90.02 大出許多倍,但從縱軸上看,其波動幅度僅為0.39,處于數據原點90.41 變化的1%之內。該類數據點相對其附近數據點的波動幅度有些異常,但波動幅度與數據點原值相比非常小,且當曲線時間窗口拉長后,這類波動并無明顯異常,因此這類相對原值波動極小的數據點不應看做噪點數據。

圖5 正常數據波動幅度圖

2.2.2 刺峰噪點數據識別算法

鉆井參數極值刺峰噪點數據識別基本思路為按照專業技術人員對噪點數據的常規認知算法,通過添加約束條件,將正常數據點(含正常極值點)剔除。具體做法是:首先按照公式(1)先識別出極值點,然后將每個極值點假定為極值噪點數據,設定相關約束條件檢測其是否符合極值噪點數據特征,如果符合再將相關約束條件應用于該極值點兩側的非極值點數據(范圍限定在檢測極值點到兩側最鄰近的不同類型極值點之間的數據點),最后將滿足約束條件的數據點標記為噪點數據。

圖6 為某井鉆井參數數據極值點曲線,數據點i處的時間橫軸x值為xi、鉆井參數數值縱軸y值為yi;假定鉆井參數數值y變化幅度大的極值點為噪點(noise),噪點與左、右兩側不同類型極值點x、y的差值分別看作微分量dx1、dx2與dy1、dy2;為區分鉆井參數曲線整體橫縱軸的波動幅度,記在一定時間段(interval)內鉆井參數曲線兩兩相鄰不同類型極值點的差值由小到大排序后的橫、縱軸的中位數分別為dxm、dym。

極值噪點判別約束條件如公式(2)所示,式中α、β、γ、η均為待設定的超參數。公式(2)中:不等式①是對刺峰噪點數據在水平、垂直兩個方向上波動幅度的限制,α是刺峰噪點數據與曲線整體在垂直方向上波動幅度的比例關系,β是曲線波動的時間間隔;不等式②是刺峰噪點數據特征的形式化表示,γ是刺峰噪點數據的波動幅度占鉆井參數數值本身的百分比,因此γ的取值比較小,結合實驗可判定,γ取值為1%~5%時較為合理;不等式③是針對圖5 中的特殊情況所做的約束,η是刺峰噪點數據左、右兩側的波動比例,刺峰噪點數據的特征為左、右兩側的波動幅度近似,η取值2~3為合理范圍。

2.2.3 噪點附近非極值噪點識別算法

非極值噪點數據判別以圖7 為例來說明。圖7 中紅色圓點和藍色方塊為曲線中的極值點,綠色和藍色三角表示由最底部極小值到兩側極大值逐漸上升的中間過渡數值點。通過公式(2)的條件約束,可以識別出藍色方塊極值點為極值刺峰噪點數據;顯然,刺峰噪點數據右側的藍色三角形數據點同樣為異常噪點數據,但接近曲線主趨勢線的綠色三角形數據點則不應被歸屬于噪點數據。通過大量實驗得出:極值刺峰噪點ni(noise(xi,yi))左、右兩側相同時間窗口范圍(圖7 中虛豎線所限定的區間)內,最接近刺峰噪點的極值點k(limit(xk,yk)),最具有參考性,取為參考約束點limit,圍繞該點增加約束條件即可較好地劃分出噪點與正常數據點。記極值刺峰噪點y值為ynoise,參考約束點的y值為ylimit。公式(3)給出了極值噪點數據到鄰近不同類型極值點之間數據是否為噪點數據的劃分約束條件。

圖7 噪點數據波動曲線

Extreme noise neighbor s.t.

公式(3)中?、λ均為待設定的超參數(?表示噪點數據到鄰近約束點距離與曲線整體的波動比例,λ表示檢測數據點到約束點距離與被檢測的極值點波動的比例)。除此之外,搜索極值噪點左、右兩側同類型極值limit約束點的時間范圍也是一個超參數,時間窗口越大,參考的范圍越寬,反之則越窄。公式(3)中不等式④是針對極大值噪點的設定,不等式⑤是針對極小值噪點的設定。

通過公式(2)約束條件可以判定極值點是否為噪點數據,通過公式(3)約束條件可以判斷極值點兩側的非極值點是否為噪點數據。為進一步避免錯誤識別,可對已識別的噪點起止點時間間隔再次約束,以避免較長時間的上升或下降。整個鉆井參數噪點數據識別算法流程如圖8所示。

圖8 鉆井參數噪點數據識別算法流程

3 噪點數據識別準確性實驗評估

3.1 噪點數據識別超參數設定

鉆井參數噪點數據波動幅度與正常數據的波動幅度差異懸殊,二者波動幅度的比例關系在噪點數據識別中非常重要,這涉及超參數α、β的設定。通過對曲線中含有刺峰噪點的兩兩相鄰的極值點橫、縱坐標的差值進行分析,顯示出刺峰噪點數據y值差值異常大于其他極值點y值差值,x值差值則相對穩定。分析大量含刺峰噪點數據曲線樣例,結果表明,僅出現個別刺峰狀異常離群噪點的現象較為普遍,如圖9a所示某口井的鉆井參數曲線。圖9a 藍色方塊數據點為噪點數據,圖9b 為圖9a 的相鄰極值點差值分析結果,藍色、綠色散點分別為相鄰極值點y、x值的差值絕對值排序分布。

圖9 鉆井參數噪點數據波動分析圖

圖9b 顯示極值點y值波動幅度(藍色散點),只有極少噪點數據的波動幅度大于2,大部分非噪點數據的波動幅度均接近于0,二者的比例關系即為公式(2)中的超參數α;綠色散點為離散的整數,逐漸地上升并減少,表明各個極值點上升或下降的時間間隔多數在5 s 以內,連續8 到10 個數據點上升或下降的曲線片斷很少。經多次實驗驗證,α取值8~15 為合理范圍,極值點兩側的總時間間隔β取值10~20 為合理范圍。在運算的最后,依然還會對噪點數據的起止時間間隔再次約束,所以β可以適當設置大一些。

通過大量鉆井參數數據案例測試分析,得到刺峰噪點數據識別準確率較高的一組超參數,即:α=9、β=16、γ=2%、η=3、?=4、λ=0.2。搜索極值噪點數據左、右兩側同類型極值(limit)約束點的時間范圍是25 s,噪點數據起止時間間隔約束小于7 s。

3.2 噪點數據識別準確性評估

為評估刺峰噪點數據識別準確率,隨機抽樣30口井某一天24 h 的扭矩、立管壓力、總池體積、入口流量、出口流量共5 種鉆井參數數據,將24 h 劃分成5 min為一個時間窗口,把上述超參數應用于圖8算法中,識別鉆井參數刺峰噪點;再將識別到含有噪點數據的5 min 鉆井參數數據繪制成曲線圖,并標記噪點數據,然后隨機抽樣200 張噪點數據圖片(圖10),請專業鉆井技術人員評估,準確率達82%以上。

圖10 鉆井參數噪點數據波動分析圖

噪點數據的準確性與數據的質量有很大關系,不同的鉆井參數應該有不同的約束條件。從30 口井5種鉆井參數噪點數據召回統計(表2)可以看出,出口流量的噪點數據召回量最大,達到1 630 個,也印證了鉆井現場技術人員的普遍經驗認知,即出口流量數據質量較差,與井場實際情況相符。

表2 30口井5種鉆井參數噪點數據召回統計

4 結論

針對鉆井參數曲線中的噪點數據識別問題,本文探討并給出了以極值為基礎的刺峰噪點數據識別算法,該算法以刺峰噪點數據在曲線中呈現的特征為判斷標準,并給出了可編程的算法數學公式。通過數學算法和計算機流程圖,首先建立極值點數據集,再識別極值點是否為噪點數據并建立約束條件,進一步將約束條件應用于極值點兩側的非極值點,最后整體識別極值點及其兩側的數據是否為噪點數據。

該算法經過大量現場試驗數據驗證和評估,具有很高的準確度。因此,本文提出的基于極值的鉆井參數刺峰噪點數據識別算法可應用于鉆井現場實際數據分析匯總,也可應用于類似的工程作業數據分析診斷。

猜你喜歡
噪點幅度極值
單次止損幅度對組合盈虧的影響
極值點帶你去“漂移”
相機學院
極值點偏移攔路,三法可取
一類“極值點偏移”問題的解法與反思
微波超寬帶高速數控幅度調節器研制
低相噪點頻源的設計與驗證
技術櫥窗
基于ANSYS的四連桿臂架系統全幅度應力分析
用Lightroom降低畫面的噪點表現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合