?

面向海外數據庫的一種通用數據錄入方法的研究

2021-03-16 02:47曹偉
中國管理信息化 2021年4期
關鍵詞:海外數據錄入數據庫

曹偉

[摘 要]新疆油田公司勘探開發研究院常年承擔大量海外油氣勘探、開發等領域的相關業務,各類專業數據與日俱增。海外業務的技術標準、管理方式等各不相同,出現了數據語言多樣化、完整性參差不齊等問題。為了使海外數據以更加規范化、標準化錄入數據庫,科研人員在海外已有數據庫的基礎上,提出建立一種全新的通用數據錄入平臺設計思想,來適應不同國家或地區的不同油氣田在數據格式和數據單位等方面的差異,從而提高海外數據錄入的效率,減少人為因素引入錯誤數據的風險。

[關鍵詞]海外;數據庫;數據錄入

doi:10.3969/j.issn.1673 - 0194.2021.04.091

[中圖分類號]TP311.13[文獻標識碼]A[文章編號]1673-0194(2021)04-0-02

0 ? ? 引 言

新疆油田公司勘探開發研究院承擔海外油氣業務并由此產生了大量的業務數據。海外科研人員經常需要分析使用這些數據,為其下一步研究工作提供指導。由于工作環境和人員配備等因素,現有的軟件工具很難整理,錄入數據工作量大,工作效率較低。同時,隨著海外業務的擴張,即使數據庫層面能適應海外業務數據的變化,數據錄入軟件層面也并不一定能夠適應業務的變化,甚至需要調整、修改軟件功能來錄入數據。此外,海外數據存在單位不統一,完整性參差不齊,不同地域數據格式各異的問題,且在錄入數據時很難實現靈活多變的數據校驗。

因此,油田公司急需一個通用且靈活的數據錄入平臺,在適應海外業務變化的同時,也能適應不同國家地區數據的特性和數據校驗的個性化需求。

1 ? ? 設計思想

傳統的數據錄入軟件平臺往往針對固定格式的原始數據而開發,并不適應海外數據。即使不考慮海外業務變化和擴張導致數據庫調整從而增加或修改表字段的問題,甚至不考慮增加數據庫表的情況,僅不同國家地區之間原始數據格式的差異,就很難進行統一。如果定制一套統一的數據格式標準來整理原始數據,會大大增加數據錄入人員的工作量,而且工作效率也不盡人意。

所以,需要打破傳統的以數據庫為中心的數據錄入方法,以原始數據為中心,使數據錄入平臺能夠適應不同國家地區原始數據格式和數據單位等之間的差異,以實現可定制的個性化數據錄入。

以下筆者將按照從總體到局部和數據錄入流程,介紹這種新的數據錄入方法的思想。

1.1 ? 功能架構

數據錄入平臺以國際化模塊為基礎,實現數據字典、模板和數據錄入等系統功能和界面的多語言功能(見圖1)。數據字典即海外數據庫的元數據信息,包括表、字段、約束等。模板以數據字典為基礎,用戶可根據不同的原始數據格式自己設計模板,然后導入數據。數據模板可在個人或單位之間共享,其間必須對模板設計權限加以限制,從而避免錯誤的設計或修改模板而導致數據錄入錯誤等一系列問題。由于實現了數據錄入功能和數據庫表結構之間的解耦,需要數據映射和校驗模塊對原始數據的數據類型和閾值等進行匹配和校驗,以保證數據的正確性。

海外數據庫和模板數據庫分別存儲海外業務數據和模板數據。

1.2 ? 實體

①數據庫實體部分主要包含數據庫對象(數據庫表、數據庫字段、數據庫字段約束)以及表和字段的國際化信息。②數據庫表、數據庫字段和數據庫字段約束來源于海外數據庫,可通過數據字典管理模塊從數據庫中提取。③數據庫實體部分是相對固定的,底層數據庫發生改變時,可通過數據同步操作清除冗余數據或重新從海外數據庫中提取數據庫對象的信息。④模板實體部分主要包含與數據庫實體對應的模板表、模板列及其國際化信息。⑤列表達式用于閾值校驗和單位換算。根據數據庫字段創建模板列時,可指定與數據庫字段不同的計量單位,設置相應的換算系數生成列表達式。導入數據時,根據具體的數值計算列表達式,從而實現單位制轉換和閾值校驗等功能。此外,可從數據庫的Check約束中獲取必要的信息,從而提前校驗數據是否滿足必要條件。⑥非數值字段創建列表達式,需要應用程序根據對應的數據類型進行數據校驗。⑦一個數據模板中可包含多個模板表。根據不同的國家或地區,不同的油氣田的原始數據,用戶可自定義所使用的模板列、模板列的顯示順序和列表達式等。

1.3 ? 設計模板

模板設計工作相對復雜,需要對數據庫和油氣藏方面的知識有足夠深入的了解。由于數據模板對后續數據導入有重大影響,所以,模板的設計和管理工作需要專人負責。

模板創建過程如圖2所示。①分析原始數據所涉及的專業分類及對應的數據庫表。②根據對應數據字典創建相應的模板表。③每個模板表對應一個數據庫表,每個模板列對應一個數據庫表字段。用戶可根據實際應用場景或習慣用語等,自定義模板表、模板列的名稱,描述信息及模板列的約束條件。數據模板由一個或多個模板表構成。在實際應用過程中,用戶根據實際使用場景選擇需要的模板列,隱藏不需要的列,必填項數據列不能隱藏,以確保數據的完整性。

1.4 ? 數據導入

導入數據時,用戶根據原始數據文件選擇對應的數據模板。當用戶選擇錯誤的模板時,導入模板無法與原始數據文件匹配,程序會給出提示。導入過程如下:①根據數據文件選擇模板。②客戶端校驗數據類型,并根據列表達式校驗數據是否合法。③在客戶端完成數據預處理之后傳輸到服務端。服務端根據數據庫表和字段對原始數據進行拆分組合,實現原始數據和數據庫之間的映射。④后臺生成對應數據,并分批或逐條導入數據庫。后臺分批提交時,后臺程序性能較高,逐行提交時,交互性更好。如何取舍應根據實際數據量或應用場景而定。應用程序可提供選擇分批導入或逐行導入的接口,供用戶自主選擇。導入數據時,服務端僅需記錄導入的操作及數據庫表和數據的通用唯一識別碼( Universally Unique Identifier,UUID)即可。

2 ? ? 結 語

隨著大數據時代的到來,數據作為油田業務金字塔基礎的組成部分,其重要性不言而喻。如何高效地利用數據,挖掘數據潛力以指導科研生產成為行業熱點。本文提出一種新的面向海外數據庫的數據錄入方法,構建一種適應性強、統一靈活的數據錄入平臺,以解決傳統的數據錄入平臺不能適應海外數據復雜多變的問題,從而為開展海外業務提供更強大的支撐。

猜你喜歡
海外數據錄入數據庫
基于SPSS軟件在市場調研中的數據錄入方法
基于SPSS軟件在市場調研中的數據錄入方法
海外少兒對外漢語教學現狀以及面臨的問題
暴風科技進軍影視、游戲、“海外”三大業務
Web表格批量數據錄入的控制及實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合