?

基于大數據的油氣水井生產數據質量評價方法研究

2023-08-27 05:45岳相如姚渝琪沈俊豪
通信電源技術 2023年11期
關鍵詞:作業區完整性結構化

岳相如,姚渝琪,何 楊,沈俊豪

(中國石油西南油氣田公司通信與信息技術中心,四川 成都 610041)

0 引 言

隨著“兩化”(信息化和工業化)結合戰略的逐步推進,石油領域的現代化工程高速增長,各油氣田更加注重數字化建設力度,并積極開展信息系統建設工作,其運行中形成的非結構化、結構化、半結構化數據規模巨大且成長速度快,顯示出大數據分析的特點[1-3]。在信息爆炸性增加的背景下,原有的信息處理系統遇到障礙,無法滿足油氣田高速增長產生的大量信息迅速收集與分析應用的要求。同時,大力實施信息系統建設和改造的過程中,數據質量、數據管理、數據標準化問題日益凸顯,特別是在大型油氣田企業中,數據質量問題已經成為制約上層數據分析應用的關鍵因素。為解決該問題,提升數據質量,量化的數據質量評價方法研究與實踐尤為重要。

1 數據質量及評價概述

1.1 數據資產

數字信息是被個人和企業所擁有或者控制、能夠給企業提供未來經濟效益、以物理和電氣方式表示的信息,這些信息可能包含數據、文字、圖像、語音或視頻等形式[4]。數據指在具備數據權屬、有價值、可計量以及可讀取能力的網絡空間中的信息集合,根據構成形式又可以進一步劃分為3 種,分別是結構化數據、非結構化數據以及半結構化數據,也可以包括各種業務形式的信息,如企業信息、商務辦公信息、運營服務信息以及“質量、健康、安全、環境(Quality Health Safety Environment,QHSE)”信息等。中國石油西南油氣田公司典型的數據資產如下。

(1)非結構化數據。非結構化數據具體內容如下:以文件形式儲存的文本文件、電子表格、演示文稿等;各單位檔案館內的紙質及光盤存檔資料;協同辦公平臺的文檔和稿件等;即時消息、圖片、音頻以及視頻文件等;會議形成的會議文件和影音資料等;生產視頻監控平臺的監控錄像和安眼系統的報警信息;公司地理信息系統的地理數據等。非結構化數據占據了公司數據資產的絕大部分,存在儲存容量需求大、數據孤島、管理困難等問題,與結構化數據相比,難以創造二次價值。

(2)結構化數據。結構化數據主要包括資源勘查和生產技術信息管理系統(A1)以及石油水井生產技術信息管理系統(A)等二等信息系統的數據管理。其相同點是按照一定格式和規范組織數據,可以很容易地將數據轉換成圖表或報表等可視化形式,使數據分析工具(Excel、BI、Hadoop 等)能夠快速識別和處理這些數據,為數據挖掘和分析提供堅實基礎,從而有助于發現潛在趨勢和關聯,為上層應用決策提供有力依據。

(3)半結構化數據。半結構化數據主要包括實體關系(Entity Relationship,ER)圖、勘探與生產數據模型(Exploration and Production Data Model,EPDM)、關系模型以及接口文檔等,包含一定程度的結構化元素,如相關標記或部分數據等,但沒有嚴格的格式,具備自我描述功能。半結構化數據用于分隔轉換語義元素和對數據字段進行分層管理。

1.2 數據質量

數據質量(Data Quality,DQ)是反映信息是否符合服務要求水平的衡量指標和體現數據價值的關鍵因素,高質量的數據可以支撐更加精準高效的上層分析決策和優化改進業務流程。數據質量的評價維度涉及多個方面,主要如下。

(1)準確性(Accuracy)。準確性主要指數據是否正確反映真實生產或實際業務情況,沒有錯誤或偏差。準確性是數據質量評價最重要的一環,直接影響數據價值,是衡量數據質量的核心標準之一。

(2)完整性(Completeness)。完整性主要指數據是否包括全部的必要信息,同時實體值、屬性值、記錄值以及字段值不遺漏。完整性決定了數據在分析和決策中是否可用。

(3)一致性(Consistency)。一致性包括層級一致(不同部門和單位橫向一致、二三級單位豎向一致等)和庫級一致(不同信息系統中相同源數據是否具有相同的格式、單位、定義以及值等)。一致的數據有助于確保數據在各層級的分析應用中不產生偏差。

(4)及時性(Timeliness)。及時性主要指是否能夠在適當的時間范圍內提供數據,以滿足業務需求和分析決策需求。

1.3 數據質量評價的意義

數據質量直接影響數據分析和決策的準確度與可行性,優良的數據質量評估工作能夠提升大數據分析的價值。在企業各單位明確數據職能的前提下,形成標準化的企業數據質量評估標準方法,可以提高企業數據采集管理與應用技術水平,改善企業數據管理服務質量,促進企業數據的合作資源共享,將數據運用到企業經營、管理、戰略決策,從而實現數據資本的商業價值,促使企業從“業務驅動”轉向“數據驅動”,進而實現企業數字賦能。

2 油氣水井生產數據現狀和面臨的挑戰

2.1 油氣水井生產數據管理系統(A2)

A2 系統的主要功能包括數據采集與審核、各類氣藏報表查詢、動態監測管理、采油氣工藝管理以及基本實體管理。產量數據方面,A2 系統主要分為公司、氣礦和作業區3 級。公司級主要負責年報數據的采集和審核;氣礦和作業區級主要負責月數據和日數據的采集與審核。動態監測方面,A2 系統以常規監測、專項監測數據采集、審核、上報以及綜合應用為主,能夠實現動態監測數據和相關解釋成果的規范化管理,提高動態監測日常管理效率。采油氣工藝深化應用方面,A2 系統能夠實現采油氣工藝分類標準化、數據采集標準化、數據處理以及審核流程化,綜合應用規范化管理,滿足開發部和氣礦采油氣工藝管理的應用需求。

目前,根據管理A2 系統處理的業務信息,可以將其分成2 大類,即管理信息和業務數據。管理信息主要指管理系統正常運行的有關信息;業務數據主要指管理系統中收集頻度很高的與業務活動有關的信息。

從生產業務角度分析,A2 系統數據主要包括以下5 類:一是基礎實體,包括結構單位、地質單元、構造單位、井以及地層單位等基本信息;二是計劃數據,包括配產配注計劃、動態監測計劃、措施計劃以及站庫計劃等數據;三是油氣生產數據,包括單井和油氣田,日、月、年累計產量等數據;四是措施數據,包括油氣水井措施基礎、措施效果、措施增產等數據;五是監測數據,包括常規、專項、油氣水分析及壓力溫度等數據。文章主要針對油氣生產數據開展現狀調研及分析研究。

2.2 面臨的挑戰

目前,公司的數字治理工程、主數據入湖、信息來源目錄建設以及對油氣水井生產信息的技術研究與管理評估等項目是信息標準化建設的有利契機,但是也存在巨大的問題,具體如下。

2.2.1 公司級數據管理基礎依然薄弱

數據可用性不高、平臺內部無法統一整合、缺少數據處理和分析人員等問題仍然在企業層面出現,數據的分析品質有待提高。這些問題都將會出現在今后的大數據分析應用和數據入湖等工作流程中,導致企業無法得到正確的數據分析或沒有正確的數據分析結果,從而無法從中獲得經濟價值,并最終耗費大量資金。

2.2.2 數據深層次挖掘分析能力有待加強

目前,中國石油西南油氣田公司在數據價值發掘方面還停留在相對的淺層階段,存在著“數據豐富但缺乏分析”的狀況,數據資產價值和發展狀況還停留在相對粗放的初級階段。除個別科研單位外,其他公司對數據分析所運用的手段大多停留在對圖表或報告等基本資料表面價值的統計和分析階段,對跨專業數據價值的關聯分析和橫縱向比較手段相當薄弱。即沒有對數據分析進行深入挖掘研究的先進大數據分析技術手段,也沒有既熟悉石油勘探開采生產經營情況又熟悉大數據分析應用決策過程的專業人才。同時,沒有適用于石油業務實時處理與分析數據處理的計算模式,不同部門和單位間未能建立高效的大數據合作資源共享機制,各種資料數據挖掘技術,如商業智能(Business Intelligence,BI)等,也沒有全面展開推廣工作。

3 油氣水井生產數據質量的評價方法研究

按照生產數據管理質量的統一性、準確度、完整性以及及時性4 項主要特點,建立了油井生產數據管理質量評價指標,統一處理質量指標數據、分析結果以及綜合評價結果,以滿足人們對A2 系統動態及時進行數據品質好壞量化檢驗和評價的需要[5]。同時,遵循定性和定量相結合、實用性和可比性相結合的原理,定義4 個數據質量指標維度,即準確性Qacc、完整性Qcom、一致性Qcon以及及時性Qtim,使用窮舉法對數據質量進行量化評價。

3.1 評價對象

以生產單位作業區級井生產日數據的準確性、完整性、一致性以及日生產數據上報的及時性為評價對象。

3.2 可測指標具體分析

3.2.1 準確性Qacc

設某檢測條件下的某表可測指標井數量為Ai,被測作業區所轄井數量為m1,設置檢測指標數量為n1,使用結構化查詢語言(Structured Query Language,SQL)對A2 系統數據庫相應對象進行統計判斷,檢測以下數據:A1,即生產時間填報不準確的井數量,檢測表中當日生產時間是否為0,或空值卻有產量;A2,即產量填報不準確的井數量,檢測表中當日有生產時間但產量為0 或空值;A3,壓力不準確的井數量,檢測當日油套壓力是否為負數;A4,即壓力不準確的井數量,通過油田管理軟件(Oil Field Management,OFM)檢測當日油套壓力是否為負數;……;An1,即第n1個檢測指標的井數量,檢測是否滿足條件。

根據檢測結果,則該作業區生產日數據的準確性計算公式為

式中:n1的數值越大,對數據準確性評估越可靠;準確性Qacc的值越接近于1,則被測作業區當日數據填報準確性越高。

3.2.2 完整性Qcom

設某檢測條件下的某表可測指標數量為Bi,被測作業區所轄井數量為m2,設置檢測表對數量為n2,該表列總數(或關注的完整性字段列數)為Si,使用SQL 語句對A2 系統數據庫相應對象進行統計判斷,檢測以下數據:B1是表1 所有列(或關注的完整性字段列)空值的數量;B2是表2 所有列(或關注的完整性字段列)空值的數量;B3是表3 所有列(或關注的完整性字段列)空值的數量;B4表所有列(或關注的完整性字段列)空值的數量;……;Bn2是表n所有列(或關注的完整性字段列)空值的數量。

根據檢測結果,則該作業區生產日數據的完整性的計算公式為

式中:n2的數值越大,其對數據完整性評估越可靠;完整性Qcom的值越接近于1,則被測作業區當日數據填報完整性越高。

3.2.3 一致性Qcon

設某檢測條件下的某表可測指標井數量為Ci,被測作業區所轄井數量為m3,設置檢測表間不一致指標數量為n3,使用SQL 語句對相應對象進行統計判斷,檢測如下數據:C1,即檢測中間庫與表數據不一致的井數量,需要關注生產時間和日產量字段列;C2,即檢測中間庫與表數據不一致的井數量,需要關注生產時間、日產量字段列;C3,即檢測探與生產技術數據模型(Exploration and Production Data Model,EPDM)表與被測表格數據不一致的井數量,需要關注日產量字段列;……;Cn3,即檢測某2 個表之間數據不一致的井數量。

根據檢測結果,則該作業區生產日數據的一致性計算公式為

式中:檢測表間不一致指標數量n3的數值越大,其對數據一致性評估越可靠;一致性Qcon的值越接近于1,則被測作業區當日數據一致性越高。

3.2.4 及時性Qtim

設當月天數為t,執行時間大于11:00(作業區上傳時間節點為11:00)的數量為n4。

則該作業區該月的日數據上報及時性為

式中:及時性Qtim的值越接近于1,則被測作業區當日數據上報及時性越高。

4 數據治理手段

依據管理要求,支撐A2 系統數據標準規范、數據建設、數據開發利用以及數據安全管理,實現覆蓋數據采集、傳輸、存儲、應用以及報廢全生命周期過程管理,油氣水井生產數據治理主要分信息技術手段和業務管理要求2 個方面。具體數據治理手段如下。

(1)日數據上報治理。對每天數據上報情況進行日監督,對逾期未上報數據的作業區和相關氣礦管理員及時進行上報通知。

(2)新投產井數據上報及時性。新投產井須在投產日期后1 個工作日內開始數據上報,對超3 d 未上報的井進行高亮提示,對超5 d 及以上未上報的井直接刪除井號,并納入月度通報內容。

(3)推廣數據上報情況通報制度。建立每月A2系統數據上報及時性月通報制度,并在中國石油西南油氣田公司分公司范圍內進行推廣使用。

(4)建立數據質量月通報制度。對A2 系統相關數據質量問題進行通報,對各作業區數據質量進行排名。

(5)建立數據修正線上流程和機制。規范數據修正申請、審批、解鎖以及同步的業務流程。修正線上流程節點,包括中間庫和A2 生產庫。

5 結 論

通過對油氣水井生產數據管理系統的數據質量問題的分析,梳理了影響生產數據質量的4 個主要因素。結合影響數據質量的主要因素,提出一種簡單量化的數據質量評價方法,進一步闡述配套質控手段。通過量化的數據質量評價方法實踐,獲取和評估了作業區日生產數據質量,能夠有效解決油氣田公司數據質量評價困難、數據質量考核沒有量化指標、數據質量提升沒有準確目標等痛點,對今后油氣田公司數據治理、數據模型設計迭代、數據標準化制度規范建設以及數字化交付等工作有重要意義。中國石油西南油氣田公司信息化建設正在大力發展,但由于缺乏高質量的數據標準來規范生產技術和數據共建共享機制,導致其存在“數據孤島”和“煙囪系統”等現象。數據的標準化建設與實體基建一樣,只有依據地基、建材、驗收標準等相應行業標準,才能支撐未來高質量的發展。在數據標準化的增量更大的背景下,標準越領先,地基就越牢固,未來的發展空間就更大。在數字經濟時代,需要更多地參與到數據標準化建設工作及數字化應用實踐中去,更好地助力我國數字經濟和數字中國建設邁向新高度。

猜你喜歡
作業區完整性結構化
稠油熱采水泥環完整性研究
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
基于機器視覺的建筑作業區安全隱患監測方法
莫斷音動聽 且惜意傳情——論音樂作品“完整性欣賞”的意義
煤礦錨噴作業區噴漿粉塵數值模擬與新型濕噴一體機研制
精子DNA完整性損傷的發生機制及診斷治療
高速公路作業區行車危險區域的界定
基于圖模型的通用半結構化數據檢索
施工期高速公路改擴建作業區分流組織研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合