?

基于K-means聚類分析和多元線性回歸的相關流量數據處理方法*

2024-01-30 15:00張李娜姜志誠劉大勇劉興斌
石油管材與儀器 2024年1期
關鍵詞:均值預處理聚類

張李娜,姜志誠,劉大勇,劉興斌

(1.東北石油大學 黑龍江 大慶 163318; 2.中國石油集團測井有限公司華北分公司 河北 任丘 062552)

0 引 言

相關流量計在油田油氣水地面計量[1]和油井產出剖面測量中得到了成功的應用。相關流量計的測量原理是利用流體內部存在擾動“噪聲”,采集上、下游傳感器輸出的對含水率敏感的隨機信號,對兩路信號進行處理,濾去直流信號和高頻噪聲,從而獲得上游傳感器和下游傳感器的隨機流動噪聲信號x(t)和y(t)。在滿足流體“凝固”模型條件的前提下,兩路傳感器所輸出的流動噪聲信號波形相似,但在時間上有一個延遲τ0。將兩個信號進行互相關運算,可得到互相關函數Rxy(τ)。

Rxy(τ)的峰值所對應的時間軸位置即τ0,為流體從一個傳感器到另一個傳感器所用的時間,稱為渡越時間(Transit Time)[2]。相關流量法是建立在理想流動狀態條件下,在實際應用中,尚有不少干擾檢測的問題必須注意。首先,裝設于測量管道上檢測流體噪聲的傳感器一般都具有類似的幾何特征,它對被測的混合流體流動產生的隨機噪聲信號有一定的空間濾波作用,不同相流體之間有一定程度的滑脫現象,這就使得檢測得到的隨機噪動信號的渡越時間出現偏差;其次,流體在流動過程中,流體不同相的分布會有一定程度變化,導致上游、下游兩路隨機信號的隨機流動噪聲信號波形的相似度降低[3];第三,信噪比也是一個影響相關流量測量精度的重要因素,如果有效信號幅度變小則信噪比變低,導致流動信號特征不明顯。以上因素都會使檢測得到的兩路隨機噪動信號的渡越時間出現偏差,造成互相關法得到的流量出現較大的測量誤差。

針對兩相流參數測量問題,一些學者提出極性導向式自適應算法[4]、參數估計法[5]等方法,但對渡越時間的異常值未發現有相應的修正方法。多元線性回歸方法和聚類分析的預測方法具有模型簡單、計算精確、模型解釋能力強等優點[6-8]。對此,張裕[9]等提出了一種基于K-means聚類算法的多元線性回歸模型預測臺區線損率方法,利用K-means對臺區數據進行了合理化分類,并建立了有效的回歸預測模型。因此,為實現渡越時間數據由全局最優轉為局部最優,提高模型預測性能,利用K-means聚類算法對渡越時間樣本數據聚類分析[10-11]。該方法是一種基本的劃分方法,主要優點是算法簡單、快速而且能有效處理大數據集[12]。本文將多元線性回歸方法與K-means聚類算法相結合,應用于相關流量計異常數據的處理,經多相流實驗裝置得到的實驗數據驗證,該方法是有效的。

1 數據預處理

渡越時間數據是時間序列,異常情況主要分為單點數據異常和多點數據異常。異常數據檢測的基本目的,就是識別離群度較高的數據點,針對不同的異常情況進行檢測識別并修正。數據預處理流程如圖1所示。

圖1 數據預處理流程圖

正常情況下渡越時間波動性很小,不會發生顯著跳躍變化。渡越時間的有效范圍約為0.001~1 s之間,根據這一特征將0.001 s、1 s判定為閾值的上下界限,將閾值外的數據判定為異常情況。為進一步保障序列的平穩性,通過高斯分布的3σ準則進一步判定數據異常情況。3σ準則又稱為標準差法,標準差是反映一組數據離散程度最常用的一種量化形式,是表示精確度的重要指標。在正態分布的假設下,數值X距離平均值μ三倍標準差之外的出現概率很小,因此可以認為是異常值,距離平均值3σ之外的值出現的概率為:

P(|X-μ|>3σ)≤0.003

(1)

渡越時間數據異常識別后,須對異常數據進行修正。異常數據段異常數量為1個或2個時,采用均值替換;異常數據段異常數量大于等于3個時,則采用非局部相似數據段均值替換。1個數據異常情況時,用異常值前后有效數據段求和取均值替換;2個連續數據異常時,第1位異常值用左鄰域有效數據段求和取均值替換,第2位用其右鄰域有效數據段求和取均值替換;數據段缺失值數量大于等于3個時,采用非局部相似有效數據段均值替換。具體操作步驟為篩選與當前異常數據段結構相似的所有數據段,將其定義為參考數據段,計算異常數據段與參考數據段之間的相關系數,按由大到小順序取相關性最強的3組參考數據段,3組參考數據段求和取均值并與異常數據段相應位置完成替換。為保證均值填充過程中左右鄰域都存在有效數據,在數據開頭、結尾處須判斷有無異常情況,若判定為真,需將第一個或最后一個有效值添加到數據的開頭或結尾位置。

渡越時間數據不會單趨勢地遞增或遞減,利用K-means聚類算法將渡越時間樣本數據分為K類,將渡越時間以全局最優轉為局部最優,K-means聚類算法的主要流程如下:

1)隨機指派K個數據點作為算法的初始聚類中心,即初始類簇中心a=a1,a2,…ai;

2)然后,計算數據集中所有樣本點xi到它的K個聚類中心的最短距離,把所有樣本數據劃分到與其最相近的中心點所屬類簇;

3)對調整后的類簇重新計算其簇中心,再次依據相似度更新所有點的所屬簇;

4)如此反復迭代,直至聚類準則函數收斂或達到迭代次數。

在該算法中,采用歐氏距離(見式(2))作為數據點之間的相似度。

(2)

其中,D是代表樣本與聚類中心之間的最短距離,xi代表第i個樣本值,而ai代表簇對應的中心點,M則表示是樣本總量。根據K-means聚類算法對渡越時間數據的聚類結果,建立多元線性回歸模型。

2 預測模型建立

模型預測形式為用每6個歷史數據來預測第7個數據。每幀渡越時間共計120個,將已知120個實驗數據通過逐列循環移位的形式構成一個120×7的矩陣,矩陣定義為R,第7列定義為因變量y,前6列定義為自變量xi,j(i=1,2,3...120;j=1,2,…,6)。

設因變量y與自變量xi,j滿足如下線性關系:

y=α0+α1x1+α2x2+…+α6x6+ε

(3)

y受到6個非隨機因素x1,x2,…,x6和隨機因素ε的影響。其中α是6個未知參數,ε是服從標準正態分布的隨機變量,稱為誤差項。對于120行數據樣本:

(4)

其中ε1,ε2,...,ε120相互獨立,且服從ε~N(0,δ2)分布。

其中:

(5)

(6)

(7)

(8)

將式(4)用矩陣形式表示

Y=XA+E

(9)

(10)

(11)

3 算例分析

選取4幀相關流量計在多相流裝置中所測得的實驗數據,對每幀渡越時間樣本數據分別進行處理。每幀120個數據,分別建立4組預測模型,稱為模型1、模型2、模型3、模型4,并分析預測模型效果。將數據導入MATLAB計算程序,通過plot函數繪制渡越時間散點圖。

應用上文提出的數據預處理方法對4幀渡越時間數據進行異常檢測,如圖2所示。

圖2 異常檢測后4幀渡越時間散點圖

圖2中分別展示了4幀渡越時間數據的散點圖,縱坐標表示渡越時間(τ),橫坐標表示渡越時間的時間序列,紅色數據表示為有效數據,藍色數據表示為異常數據。圖2清晰顯示,異常數據與有效數據之間存在較大的偏差,異常數據值波動范圍較大,分布不均,誤差率為4%~5%。為保障后續流量值的準確性,根據經驗設定閾值區間,渡越時間樣本數值大于等于1 s或小于等于0 s 則判定為異常值。判斷出所有樣本中異常數據,通過均值修正和非局部相似數據段均值修正,再通過高斯函數3σ準則處理得到結果如圖3所示。

圖3 數據預處理后4幀渡越時間數據

圖3中表示數據預處理后的數據波動情況,可直觀看出4幀數據中均無閾值外的異常數據點,異常數據點已都被完全替換,并保持數據穩定在0~0.9 s之間?;谏衔念A測模型的建立,分別對每一類數據集建立多元線性回歸方程及決策樹。4幀數據聚類后的3類多元線性回歸模型參數及R2信息見表1~4。特征參數為式(4)中的α,R2為決定系數,表征擬合的程度。

表1 第1幀數據參數值

表2 第2幀數據參數值

表3 第3幀數據參數值

表4 第4幀數據參數值

以上為4幀數據的回歸模型參數匯總,顯示了每幀數據回歸模型的參數情況以及決定系數R2,從運算結果上看,R2基本滿足擬合要求。每幀數據決定系數的平均值均可達到0.5,此模型可作為渡越時間預測模型使用。

根據上述模型建立分析結果,導入新一幀數據集,并將含有異常值的渡越時間數據進行數據預處理,將預處理后數據集定義為Testdata,如圖4所示

圖4 新一幀數據預處理前后渡越時間數據對比

由圖4可以看出,數據預處理效果明顯,異常數據都已完成替換。因上文4個模型所得數據都在可靠范圍內,此處選用模型1,將模型1中數據預處理后定義為Traindata_1。將數據集Testdata導入已建立的模型1中,得到預測曲線,并將預測數據集定義為Prodata,如圖5所示。

圖5 Prodata與Testdata對比

圖5中藍色曲線代表Prodata,紅色曲線為Testdata。因前6個數據值是作為歷史數據,所以Prodata預測值從第7個數值點開始,并依次往后遞推。從圖中可清晰看出,預測曲線圍繞實測值在一定范圍內上下浮動,經計算,預測值與實際值之間有90%的差距在[0.3,-0.3]之間,因此可以將預測值作為修正異常值使用。

將數據集Testdata與Prodata加以判斷得到最終處理結果,判斷過程為:若Testdata(k)滿足合理區間范圍,則輸出Testdata(k),否則輸出Prodata(k);k=1,2,…,120。Testdata(k)表示數據集Testdata中的第k個數據點,Prodata(k)表示數據集Prodata中的第k個數據點,最終預測值與實際值判斷后輸出結果如圖6所示

圖6 最終輸出數據

4 結 論

本文針對相關流量法測量流量存在較大誤差現象,提出了有效識別并處理渡越時間樣本中的異常數據的方法,得出以下結論。

1)通過應用閾值法、均值替換法和非局部相似均值替換法,對數據進行處理后,效果顯著??梢酝耆鎿Q數據集中的大誤差數據,異常率從4%~5%降至1%以內,增強了數據的可靠性。

2)多相流裝置中獲得的相關流量計的測量數據證實,基于K-means聚類分析和多元線性回歸分析預測后,預測值與實際值之間有90%的差距在[0.3,-0.3]之間,這說明預測值與實際值之間有很高的匹配度,預測結果可以用來替換渡越時間數據集中的異常值,驗證了模型的有效性。

上述工作證實了基于K-means聚類分析和多元線性回歸的相關流量數據處理方法的可行性,為下一步工程設計提供了指導。

猜你喜歡
均值預處理聚類
基于DBSACN聚類算法的XML文檔聚類
基于預處理MUSIC算法的分布式陣列DOA估計
基于高斯混合聚類的陣列干涉SAR三維成像
均值不等式失效時的解決方法
淺談PLC在預處理生產線自動化改造中的應用
均值與方差在生活中的應用
絡合萃取法預處理H酸廢水
關于均值有界變差函數的重要不等式
基于自適應預處理的改進CPF-GMRES算法
一種層次初始的聚類個數自適應的聚類方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合