?

時空大數據驅動的頁巖氣鉆井成本動態建模與優化

2024-01-14 05:40楊天翔徐海棠段言志陳江燕馬英愷
天然氣技術與經濟 2023年6期
關鍵詞:頁巖鉆井預測

楊天翔 徐海棠 段言志 陳江燕 馬英愷 李 慶

(1.中國石油西南油氣田公司天然氣經濟研究所,四川 成都 610051;2.中國石油西南油氣田公司,四川 成都 610051;3.中國石油西南油氣田公司燃氣分公司,四川 成都 610051)

0 引言

近年來全球能源需求不斷增長,對清潔能源和減少碳排放的需求日益旺盛,頁巖氣作為一種廣泛存在的非常規能源資源備受關注。頁巖氣勘探與開發被認為是能源轉型和能源自給自足的重要戰略舉措之一。然而,由于其特殊性和開發技術的挑戰性,我國頁巖氣開發投資風險較高,鉆井成本居高不下已成為制約頁巖氣產業發展的關鍵因素。頁巖氣鉆井成本在整個開發過程中占據重要地位,直接影響著頁巖氣產業的經濟可行性和可持續發展。受制于目前技術水平和市場狀況,并且缺乏完善的成本評估模型和決策支持工具,鉆井成本的控制和優化面臨許多挑戰。

通過對頁巖氣鉆井成本影響因素的研究,提升鉆井成本分析預測的準確性和可靠性,并為鉆井成本的優化與決策提供有效支持。筆者通過收集和分析多源數據,包括工程參數數據、時間維度數據和空間維度數據等,運用多種機器學習算法對鉆井成本進行綜合分析建模,有助于揭示鉆井成本的變化趨勢和影響因素,并為決策者提供優化建議。在研究方法方面,筆者基于時空大數據建立LSTM(Long Short-Term Memory)模型和SVM(Support Vector Machine)模型對頁巖氣鉆井成本進行動態建模,在時間和空間維度上提供更準確和可靠的預測結果。此外,采用Stacking方法對模型進行融合和驗證,進一步提高預測能力和泛化能力,以有效應對時空異質性的挑戰。模型建立之后,筆者采用四川盆地頁巖氣564 口頁巖氣開發井及31 口頁巖氣評價井的鉆井數據進行模型驗證,實驗結果表明模型具有較好的仿真及預測效果,能夠為頁巖氣鉆井成本的分析和優化提供決策依據,并為大數據驅動決策支撐的研究方向提供有益的啟示。

1 頁巖氣鉆井成本影響因素分析

1.1 數據采集與特征工程

為了對頁巖氣鉆井成本的影響因素進行詳細分析,首先需要進行數據的收集和特征工程構建。這一步驟旨在獲取可靠的數據來源,并對原始數據進行清洗、轉換和標準化,獲得用以分析成本影響因素的數據集,以確保后續分析的準確性和可靠性。以四川盆地近8 年(2015-2022)564 口頁巖氣開發井及31 口頁巖氣評價井為樣本,數據采集的主要渠道包括企業內部與頁巖氣鉆井相關的工程數據、施工參數、成本數據等及來源于研究機構、政府統計局、行業咨詢公司的宏觀經濟指標等時間維度數據和地質條件等空間維度數據共45 多項,33 200 余條。構建時空大數據集如表1所示。

表1 頁巖氣鉆井成本影響因素分析時空大數據集表

完成時空大數據集的構建后,通過數據清洗和轉換,對數據進行去重、缺失值處理、異常值檢測、結構化、差值、標準化等操作。然后利用特征選擇、轉換、組合、構造,提取數據特征,使得數據集更具代表性和可解釋性。

1.2 頁巖氣鉆井技術進步指數(GTPI)測算

隨著頁巖氣鉆井規模的擴大以及鉆井數量和資源開發量的增加,往往可以實現經濟的規模效益開發。規模效應下降導致單位鉆井成本下降。同時頁巖氣鉆井也被許多企業實踐證明存在典型的學習曲線效應,為了更準確地刻畫頁巖氣鉆井的成本特征,引入頁巖氣鉆井技術進步指數(GTPI)來表征規模效應和學習曲線效應對頁巖氣鉆井成本的影響。

采用規模效應因子(SEF)來度量鉆井規模對成本的影響,采用學習曲線因子(LCF)來度量隨著經驗的積累和技術的改進,作業效率提高對成本的影響。整合規模效應因子(SEF)和學習曲線因子(LCF),通過公式(1)計算頁巖氣鉆井技術進步指數(GTPI)。

其中,規模效應因子(SEF)可基于鉆井規模和資源開掘量的歷史數據進行擬合估算,學習曲線因子(LCF)可以通過分析鉆井經驗和歷史鉆井數據評估。根據樣本595口井計算出的GTPI如圖1所示。

圖1 2015-2022年樣本鉆井技術進步指數圖

考慮鉆井規模效應和學習曲線效應對成本的影響,可引入頁巖氣鉆井技術進步指數(GTPI),能夠更準確地刻畫頁巖氣鉆井成本的動態特征,也有助于企業進行成本分析和未來成本預測,以支持決策制定和成本優化的相關措施。

1.3 基于GBDT模型的影響因素分析

為了分析對頁巖氣鉆井成本的主要影響因素,基于上述時空大數據集,建立梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型來對頁巖氣鉆井成本影響因素及影響程度進行量化及解釋。主要分為4 個步驟:①初始化模型:選擇一棵基本回歸樹作為初始模型。②損失函數定義:選擇適當的損失函數來度量模型擬合效果和預測誤差。對于回歸問題,常用的損失函數包括均方誤差(MSE)和平均絕對誤差(MAE)等。③訓練模型:通過迭代的方式,逐步優化模型。每一輪迭代中,計算當前模型的殘差,并通過擬合一顆新的回歸樹來減少殘差。然后將新生成的樹與之前的樹相加,得到新的模型。④終止條件:根據預先設定的停止準則來決定模型訓練的終止,例如達到預定迭代次數或殘差下降到一定閾值。GBDT模型原理如圖2所示。

圖2 梯度提升決策樹(GBDT)算法原理圖

采用Python 語言中的Scikit-learn 機器學習庫實現,將數據集中各指標項均進行歸一化無量綱處理,對成本指標按每千米歸一,對宏觀經濟指數指標統一按照2000年數值標準化為100換算,按照70%訓練集和30%測試集劃分數據集,將595口井的結果進行加權平均,得出最終影響因素排名如表2所示。

表2 樣本井鉆井成本影響因素Top10及影響程度(不區分時空)

在得到影響因素及權重排名后,就可以針對影響因素進行基于機器學習的頁巖氣鉆井成本動態建模,選擇排名前10 的影響因素及相應權重作為參數進行建模。

2 頁巖氣鉆井成本動態建模

在對頁巖氣鉆井成本進行動態建模時,傳統的單個機器學習模型如神經網絡、隨機森林、嶺回歸等模型都無法達到較好的解釋和預測結果。主要原因有以下三點:第一,數據標準無法統一。如前文所述,影響頁巖氣鉆井成本的因素主要有工程工藝、時序數據、空間數據三類,使用單一機器學習模型時,由于時空數據的異質性,線性和非線性數據疊加勢必導致模型不能輸出很好的結果。第二,多重共線性問題。頁巖氣鉆井成本的影響因素中,很多因素之間都存在精確相關關系或高度相關關系而使模型失真,導致模型不穩定,使得某些特征的權重不準確。第三,模型過擬合問題。選擇單一機器學習模型,當訓練過程中整個數據集被遍歷(epoch)的次數較大時,在模型收斂速度提升的同時,由于監督過度嚴格會帶來模型過擬合風險,影響模型的泛化應用能力。為了盡量解決上述問題,筆者創造性的將數據按照時間和空間維度劃分成兩個子數據集,分別建立LSTM模型和SVM模型進行訓練,最后利用Stacking方法進行模型融合。一定程度上提高了模型的預測精度并使模型具備良好的可解釋性,也保證了模型的泛化能力。

2.1 基于時序數據的LSTM模型

長短期記憶網絡(Long Short-Term Memory,LSTM)模型是一種遞歸神經網絡(RNN)的變體,專注于處理和預測時序數據。LSTM 模型通過具備遺忘門、輸入門和輸出門的機制,能夠有效地捕捉到時序數據中的長期依賴關系,特別擅長處理具有時間序列結構的數據,因此非常適合用于分析時序數據對頁巖氣鉆井成本的影響。設計輸入層、隱藏層和輸出層三層結構,通過調整隱藏層的神經元數量、堆疊多層LSTM 等方式來保證模型性能。LSTM 模型原理圖如圖3所示。

圖3 長短期記憶網絡(LSTM)模型原理圖

將時序數據集按時間順序進行排序,將數據集的70%劃分為訓練集,30%劃分為測試集。訓練過程選擇均方誤差損失函數和隨機梯度下降法。模型輸出結果如圖4所示。

圖4 LSTM模型輸出結果圖

2.2 基于空間數據的SVM模型

支持向量機(Support Vector Machine,SVM)模型是一種監督學習方法,廣泛應用于分類和回歸問題,能夠處理具有多維特征的空間數據,通過構建超平面來實現對數據的分類或回歸預測。SVM 模型建模時,需要選擇合適的核函數,以將數據映射到高維空間中。通過使用SVM 模型,能夠利用地理空間特征,對成本空間維度的分析。SVM 模型回歸原理圖如圖5所示。

圖5 SVM模型回歸原理圖

將空間數據按照井口序號進行歸類,將數據集的70%劃分為訓練集,30%劃分為測試集。在訓練過程中,研究選擇徑向基函數(RBF)作為核函數,通過最小化分類誤差求解最優超平面。采用Python 語言中的Scikit-learn 機器學習庫實現輸入空間數據集,輸出模型結果。模型輸出結果如圖6所示。

圖6 SVM模型輸出結果圖

2.3 模型參數調整

在建立LSTM和SVM模型時,選擇默認值作為初始參數。故建模后要通過合理地調整模型參數,提高模型的性能和預測準確性。采用網格搜索(Grid Search)對模型進行調參,網格搜索會在預先設定的參數組合范圍內進行搜索和交叉驗證,以找到最佳的參數組合。例如,通過定義參數網格,可以嘗試不同的學習率、懲罰因子等參數組合,選擇效果最好的參數組合。但多次調參后發現對于模型性能提升有限,因此,選擇對LSTM模型和SVM模型進行融合。

3 模型融合與效果驗證

3.1 模型之間的融合策略和原理

模型融合的策略是指將不同的模型結合起來,以提高預測準確性和穩定性。模型融合的原理在于利用不同模型之間的差異性和優勢,整合多個模型的預測結果,達到更穩定、更準確的預測效果。模型融合能夠提高模型的魯棒性,減小預測誤差,從而提供更可靠的成本預測和分析結果。需根據實際情況選擇合適的融合策略,并根據模型的性能、數據的特點和任務需求進行調優和改進。

模型融合可以通過多種方式進行,常見的融合策略有平均法(Averaging):通過將不同模型的預測結果進行平均,可以得到最終的融合結果。平均法可以有效地減少單個模型的偏差和方差,提高整體預測的準確性。堆疊法(Stacking):首先使用多個不同的基礎模型對數據進行預測,然后將這些基礎模型的預測結果作為新特征輸入到次級模型中,從而生成最終的融合結果。堆疊法能夠利用不同模型的優點,進一步提高整體的預測能力。投票法(Voting):通過多個模型對數據進行預測,并根據多數投票原則確定最終的預測結果。投票法適用于多個模型存在差異性,而不能確定單一最優模型的情況。筆者選擇Stacking方法進行模型融合。

3.2 基于Stacking方法的模型融合

基于堆疊方法的模型融合是一種廣泛應用的模型融合策略,通過將多個基礎模型的預測結果作為新特征輸入到次級模型中,生成最終的融合結果。首先將不區分時空的完整數據集進行重新劃分,70%數據劃分為訓練集,用于訓練次級模型,30%的數據劃分為測試集,用于最終的預測和評估。然后將LSTM和SVM兩個基礎模型的預測結果作為新特征輸入到次級模型中,與原始特征一起進行訓練。通過多次對比嘗試,最終選擇XGBoost模型作為次級模型進行訓練,以獲得最佳融合效果。

3.3 模型效果驗證

在得到次級模型的輸出結果之后,對模型的效果和性能進行驗證,交叉驗證是一種常用的驗證方法,可以避免由于單次訓練集和測試集的劃分帶來的偶然性。常見的交叉驗證方法包括K 折交叉驗證和留一交叉驗證。在K 折交叉驗證中,將數據集分成K個子集,每次使用K-1個子集作為訓練集,剩下的1個子集作為驗證集。然后重復K次,最終得到K個模型的性能指標。最終得到融合后模型的確定系數R2 為0.96,均方誤差(Mean Squared Error,MSE)為126.57,平均絕對誤差(Mean Absolute Error,MAE)為110.04,最大誤差(Max.Err)為656.30,對稱平均絕對百分比誤差(SMAPE)為14.38%,可以認為模型具有很好的效果。具體模型效果如圖7所示。

圖7 基于stacking方法的融合模型輸出結果圖

3.4 模型結果與優化建議

結合上述模型,通過對樣本的595口井做了數據分析,經分析發現,鉆井成本中壓裂段數、井深和平臺井數是相對較重要的影響因素。這些因素的不同取值將直接影響到鉆井的成本和效率??梢娊⒌膭討B模型能夠較好地為頁巖氣鉆井成本的控制和優化提供決策依據,具備較高的應用價值。在決策鉆井方案時,需要綜合考慮油井的產能、地層情況、資源利用率、投資回報率等多方面因素,以確保鉆井過程既能提高油井產能,又能最大程度地控制成本。此外,地質條件復雜、學習效率明顯不足,管理成本過高,宏觀經濟形勢、勞動力成本效率等因素也制約著頁巖氣鉆井成本的下降。除了考慮現有的因素,構建鉆井成本時空大數據集時,還可以從更多維度考慮因素,以進一步提高模型預測效果。其中,經濟因素和鉆井實際情況是兩個重要的方面。通過綜合考慮這些因素,能夠更好地預測未來的鉆井成本,并為決策提供更精確的參考依據。

4 結束語

當前,大數據技術及人工智能技術迅猛發展,對于頁巖氣鉆井成本的影響因素分析和優化策略研究愈發依賴于大量數據的處理和挖掘。傳統的成本分析方法往往忽略了這些非直接因素和大數據的作用,導致成本優化策略的實際效果受到限制。因此,立足對頁巖氣鉆井成本多種影響因素的大數據分析,尋求一種綜合性強、能充分考慮各種影響因素的成本分析方法,對于實現頁巖氣鉆井成本的優化具有重要價值。

采用多源數據進行綜合分析,使鉆井成本的動態變化能夠得以更全面、準確地描述。其次,引入了GBDT(Gradient Boosting Decision Tree)模型進行影響因素的排序和分析,可以幫助決策者更好地了解各個因素對成本的影響程度,從而制定更有效的優化策略。此外,使用LSTM模型和SVM模型分別對時間和空間數據進行建模,使成本預測更加可靠和準確。最后,通過Stacking 方法對模型進行融合應用,進一步提高了模型的預測能力和泛化能力,有效地應對了時空異質性的挑戰。本次研究的主要貢獻如下:①系統地收集并分析了頁巖氣鉆井成本的直接和非直接影響因素,拓寬了研究視角;②分析了各影響因素之間的關系,為鉆井成本優化提供了更深入的洞察;③通過深入挖掘各種影響因素、建立各類模型,并進行融合優化,實現了大數據驅動的頁巖氣鉆井成本動態模型構建,可以為頁巖氣鉆井成本的控制和優化提供決策依據,并為大數據驅動決策支撐的研究方向提供有益的啟示。

猜你喜歡
頁巖鉆井預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
自升式鉆井平臺Aker操作系統應用探討
掃描“藍鯨”——觀察海上鉆井平臺
不必預測未來,只需把握現在
頁巖氣開發降溫
裂縫性致密儲層鉆井完井液漏失損害帶模擬
G0-7“工廠化”井組鉆井工藝技術
我國頁巖氣可采資源量初步估計為31萬億m3
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合