?

大數據下的數據集成研究

2021-12-27 23:05楊琴琴
科學與生活 2021年22期
關鍵詞:數據集成數據服務數據挖掘

摘要:數字油田、智能油田的不斷建設完善,推動著石油企業信息化建設進入了新的階段,即大數據建設階段。為了在大數據環境中獲得一定競爭優勢,石油企業就需要對大數據技術進行更加細致的分析,首先就要進行數據集成。因此,本文以大數據為研究背景,分析了勝利油田數據中心數據集成現狀,闡述了目前數據存在的問題,針對性地制定數據集成技術路線,通過數據集成,解決數據重復錄入,實現數據標準統一、統一管理、共享應用。

關鍵詞:大數據;數據集成;數據挖掘;數據中心;數據服務

前言

隨著勘探開發的不斷深入,我國油氣行業在地質、測井、物探、開發等各個環節均積累了海量的數據資源,隨著油田的信息化、數字化、智能化建設,對油氣生產過程中積累的數據資源的分析利用也逐步展開,油氣勘探開發步入“大數據時代”。通過大數據挖掘,對油氣生產過程中各個環節的數據進行充分的信息采集,并且對所采集到的信息進行全方位的分析利用,進而可以對生產環節中指標的變化趨勢、工況效率、工藝流程的安全性以及成本控制等方面提出預測、預警和優化,運用已獲取的信息、規律、趨勢,適時調整生產方案和策略,達到提升油氣產量和效益的目的。

數據集成是數據挖掘的前提,先要對數據進行集成,然后才能進一步挖掘利用。數據集成和數據挖掘是一種大數據應用,數據集成簡而言之就是對數據進行搜集,然后按照一定的規范進行數據整理,形成分門別類的數據信息。數據挖掘是對集成的數據進行讀取與分析,發現數據背后隱藏的更深層次的信息。

1 勝利油田數據中心數據集成概述

數據中心運用面向對象的技術方法,對數據的采集、存儲、管理和服務進行了規范的流程梳理和關鍵技術攻關,建立了“標準統一、上下一致、結構合理、安全可靠”的管理模式,規劃、設計了企業級數據管理體系,為油田實現數據—信息—知識的數據價值鏈管理提供了技術保障。

數據集成就是為異構數據交流提供支撐工具,能夠為信息交互和共享提供支持。對信息系統進行集成,需要實現最基本的集成,即數據集成。在數據集成基礎上,才能對系統各種數據進行加工整理,對數據規則、格式等進行定義。通過數據集成,能夠解決數據重復錄入,實現數據及成果的標準化采集和在數據中心的統一管理、共享應用。

2 目前數據存在的問題

由于各應用系統單獨采集、獨立建庫,缺乏統一規劃、整體設計,在不同程度上存在著數據采集標準不統一、采集不全、編碼不完善等問題,致使標準不一致、數據一致性差、冗余高,給跨應用系統、跨專業、跨部門的綜合應用帶來了困難。具體分為以下四類問題:

①用戶在信息系統應用中,統一數據需要在不同系統中多次錄入,導致重復操作;

②系統之間需要共享的數據未實現集成,導致用戶手工線下轉換、辦理業務;

③統一數據,不同崗位都在采集,源頭不唯一,導致數據冗余、數據一致性無法保證。

④系統之間統一數據的分類標準不統一,編碼不完善,不對應。

數據集成的過程中就是要解決數據重復錄入、不能共享、唯一性不能保證等問題。還需要做到:

①需要提升多源異構數據管理能力:目前對分散管理的文檔、圖件數據、實時數據、音視頻、體數據等尚沒有建立有效的管理體系,需要增加直觀、簡便的線上管理手段,將數據進行資產管理,進一步支撐數據挖掘,實現數據增值。

②需要提升應用庫數據共享能力:目前應用系統產生的數據都分散的存儲在各應用庫,沒有實現集中管理,數據共享困難,需要提升數據管理范圍,將應用庫數據納入數據湖統一存儲、管理。

③需要提升數據資源的統一管控能力和服務能力:需要提升主數據和元數據管理能力,滿足業務應用和大數據分析對于跨業務協同及數據朔源的需求;需要提升數據服務能力,滿足業務變化對數據的多變需求和性能彈性變化需求。

3 數據集成技術路線

基于數據中心:數據統一進入數據中心,通過數據中心數據服務集成;按照數據集成分析、數據模型設計、數據匯集、數據服務共享四大步驟,參照數據集成技術規范進行數據集成實施。

(1)數據集成分析

通過數據集成需求,結合業務情況分析數據的集成關系,分析系統數據基礎情況,同時分析具體數據項,并結合數據中心,確定數據集成方案,明確數據服務模式。

(2)數據模型設計

通過對集成業務的分析,結合主數據、數據維度、數據標準等構建統一的數據模型。

(3)數據匯集

基于數據中心,實現數據集中,通過數據服務或者ETL工具,基于統一的數據標準,將數據匯集至數據中心。

(4)數據服務共享

擴展數據服務,實現服務接口的動態定制和解析,標準化的輸入和輸出,滿足業務應用的復雜的數據服務接口要求,通過集成系統改造,實現數據共享。

統一管理數據資源,系統進行數據集成時通過統一的數據資產目錄找到數據來源,通過數據中心或系統接口的方式實現數據的集成。

基于數據中心提供數據服務支持,在現有服務方式的基礎上,擴展數據服務能力:

1)對上云應用,構建基礎數據服務、主題數據服務、應用數據服務微服務群,實現數據服務靈活部署和快速擴展。

2)對未上云傳統應用,沿用原有數據推送、數據投影、數據接口等服務方式,實現原有應用的平滑移植。

3)對大數據應用,通過數據服務引擎,實現在線數據實時處理和離線數據分析挖掘,支撐上端大數據應用。

對于基于數據中心的應用,充分利用數據中心的數據共享功能,實現系統間的數據貫通:

1)集成系統:按模塊集成到平臺,以數據服務的方式從數據中心獲取數據,產生的成果數據同步回存數據中心。

2)統建系統、專業軟件:無法按模塊集成,以數據接口的方式從數據中心提供所需數據。

4 結束語

通過數據集成,將各應用系統的底層數據打通,完成全局油藏勘探開發、生產運行、經營管理等相關的數據資源管理,實現數據融合、互聯互通、數據一致,完善了數據中心的建設,提升了數據中心的服務能力,解決了數據重復錄入、不能共享、唯一性不能保證的問題,支撐了跨業務的數據聯動以及基于數據驅動的業務協同,為下一步大數據挖掘奠定了基礎。

參考文獻

[1]劉彬,劉凱.關于信息系統集成與數據集成的策略探討[J].電子質量,2018(9):58-61.

[2]趙磊.信息系統集成與數據集成策略應用研究[J].科技風,2018(26):246.

[3]林小村,馬玉林,翁小云.數據中心建設與運行管理[M].北京:科學出版社,2011:5.

[4]孟小峰,馬如霞,馬友忠等譯.數據集成原理[M].北京:機械工業出版社,2014:201-204.

作者簡介

楊琴琴,2005年畢業于濟南大學信控學院電子信息科學與技術專業,中國石化集團勝利石油管理局有限公司信息化技術服務中心數據管理崗,從事數據運維、數據應用、數據治理等方面工作。

猜你喜歡
數據集成數據服務數據挖掘
大數據時代高校圖書館數據服務的困境及優化路徑
基于數據挖掘探討慢性腎衰竭處方規律
數據挖掘綜述
軟件工程領域中的異常數據挖掘算法
成本與制造數據集成分析
基于R的醫學大數據挖掘系統研究
基于Biztalk的異構醫療信息系統數據集成研究
信息系統集成與數據集成策略研究
基于數據集成的水上項目國家隊數據庫網絡管理平臺的設計與開發
大數據開啟圖書館工作新時代
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合