?

大數據在網格環境下提升訪問速度的研究

2016-05-19 13:30李明馬梅娟禹偉
電腦知識與技術 2016年7期
關鍵詞:大數據

李明++馬梅娟++禹偉

摘要:網格是當今信息社會一種基礎的網絡設施,它的功能是實現互聯網上所有資源的互聯互通,把物理上分散在各地的服務器聯合成一個抽象的整體,并轉化成一種隨手可得、統一標準,并且經濟上可行的能力。隨著時代發展,同時具有海量的數據規模、迅捷的數據傳輸、復雜多樣的數據類型和價值密度低為主要特征的大數據如雨后春筍般出現,而網格恰恰提供了這樣一種平臺,能提供身份授權識別、多數據資源的分配共享、進程動態調度。

關鍵詞:大數據;網格服務;大數據資源

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)07-0014-02

隨著大數據時代的到來,各種應用數據存儲的不斷增大。在生物計算、天文研究、天氣預報等科學研究領域,涉及的文件數量甚至達到TB或者PB量級,如何減少訪問時間和提高訪問的效率,在普通網絡環境下對同時具有海量的數據規模、迅捷的數據傳輸、復雜多樣的數據類型和價值密度低為主要特征的大數據進行訪問、并集成到應用工作流變成一種不堪重負的包袱。當要使用分析這些Big Data Source時,用來進行數據查詢、訪問和集成的數據結構機制不再適應現實工作的需要,出現了一些應用系統一直處于超負荷狀態,數據信息之間的交換和硬件資源的共享也存在缺陷,有些軟件和硬件資源得不到有效的應用。本文通過設計新型層次結構模型和訪問通道,較好的屏蔽底層計算處理的復雜性,更好的實現對大數據、海量數據的快速訪問和存儲。

1 構建網格環境下的數據庫系統

網格[3]是作為當今信息社會最基本的一種基礎網絡設施,能把物理上分散在不同區域的服務器聯合成一個抽象的整體,并轉化成一種隨手可得、統一標準,并且經濟上可行的能力。它支持身份授權識別、多數據資源的分配共享、進程動態調度。

構建在網格中應用數據庫系統[1],需要設計提供一個中間件,各種不同的應用管理系統包裝成不同的Grid Service[1],方便網格應用存取網格數據庫,并根據數據的訪問標準,設計出統一調度使用的數據接口(Data Interface),提供用統一方式來命名的關系數據庫、XML數據庫和文件數據庫中數據資源,提高了數據庫訪問的速度和效率。

2 數據訪問方式的新型層次結構方案設計

從系統應用的角度來看,網格環境下的大數據資源共享由網格數據服務(Grid Data Service)[1]為基礎,最底層由SQL Server、Oracle、計算機等網絡硬件資源,第二層由相關各種應用系統數據庫、文件系統等數據資源組成;第三層是實現海量大數據資源共享功能的關鍵,該層對外提供的服務,都是由上一層GDS接口來對外發布。第四層是資源服務層及匯集層,能提供網格數據服務(Grid Data Service,GDS)[3]、網格數據仲裁服務(Grid Data Mediation Service,GDMS)[3] 、網格虛擬數據服務(Grid Virtual Data Service,GVDS)[3]及副本選擇,第五層應用層為用戶提供高級的抽象服務,實現大數據資源的共享和查詢,具體的網格環境下大數據訪問方式服務模型如下。

1)構造層:新型層次結構的最底層是以SQL Server、Oracle、計算機等位基本組成元素,為數據快速訪問提供物理資源保證。

2)資源層:該層由各種Application System Database和File System等組成,這些Big Data Resource都統一定位為抽象資源,具有獨立、不同形式的訪問方式。

3)接口層:該層主要是對各種訪問Grid Servers接口進行描述,為用戶提供統一的訪問的大數據資源(Big Data Resource)接口,它包括各種不同應用系統提供的接口。

4)資源管理服務層:本層功能是管理多個BDR,提供數據訪問和副本管理功能。包括GDS、網格數據仲裁服務(Grid Data Mediation Service,GDMS)[3],網格虛擬數據服務(Grid Virtual Data Service,GVDS)[2-3]。

5)用戶應用層:第五層是與BDR共享應用最為密切相關的一層,其核心作用是為客戶端提供更高級的抽象服務,并且根據客戶端需求,通過GDS接口層向網格服務層提出查詢請求,查詢到滿足請求的結果并返給客戶端,更好的實現數據資源及相關數據資源間查詢和共享。

3 訪問速度提高解決方案

為了實現對BDR透明、開發的管理,快速訪問數據資源接口,每次運行都需要不斷地重復讀取和連接BDR,造成用戶要訪問該BDR時,雖然BDR空閑然而數據連接卻經濟被占用,造成了BDR 已經被使用的現象,影響了整個數據庫的服務和運行性能,形成了BDR訪問效率不高的現象,這個問題可以通過Cache technology得到有效的解決。

在絕大多數不相同技術環境條件下,BDR的用盡,并不是由于應用的正常負載過高,而是在于其他不同數據庫應用系統使用共同一個資源的原因。在BDR之間的傳遞和共享過程中,BDR大部分是主要環節資源,各種不同的應用系統都會使用相同的BDR,假設某個應用用光了全部的BDR后,意味著其他的應用程序也無法有效的進行工作。在現在的OGSA-DAI數據存取和集成(Open Grid Services Architecture-Data Access and Integration)[1,3]集成中間件中,并沒有設置對不同數據庫進行連接和訪問的緩沖區,只提供了對關系型數據庫和XML數據庫的直接連接接口。在OGSA-DAI集成中間件[2]在網格數據服務組件支持下實現對BDR的控制,如果我們在Grid Data Service的讀取數據端建立一條訪問通道,就可以實現對BDR的控制,并有效提升訪問的速度和利用空閑的數據資源。具體方法如下:

1)我們通過繼續保留使用原來Grid service訪問數據源的通道。

2)在獲取該BDR的通道上,我們需要開辟一條虛擬的指向數據連接緩存的通道。

3)連接緩存區一邊指向BDR服務,一邊指向其他不同的Physical Data Resource。

4)我們設計的通道間構成“并聯”的關系,能有效提升訪問速度。

5)訪問不同數據源時,可首先訪問Data source connection cache,只有當緩存池中“數據連接”查詢不到或者不存在時,才能直接查找Application DB信息。

6)對BDR數據訪問結束后,保存數據連接并進入緩沖池,以獲取對緩存池中短時間沒有運行過或剛剛被關閉的BDR的訪問,通過這種訪問方式,極大提升了對BDR使用效率,訪問方式如下圖所示:

4 發展展望

網格環境下對大數據存儲、管理和分析存在諸多挑戰,其中大數據存儲和訪問已成為數據研究的熱點方向之一。如何在網格環境下,提升大數據訪問的速度和準備高效的應用分析能力是數據管理的關鍵問題。本文針對大數據進行分析,提出了一種新型的層次結構模型和數據訪問速度提升的方法,提升強大的海量數據處理能力,有效解決數據龐大、數據不精確帶來的諸多問題。

參考文獻:

[1] 李明. 網格中機構代碼數據訪問方式的研究與實現[D]. 東營: 中國石油大學, 2010.

[2] 毛華堅. 云環境中的移動文件存儲和時空數據分析關鍵技術研究[D]. 北京: 國防科技大學, 2013.

[3] 公劍. 基于網格的異構數據訪問與集成的研究與實現[D]. 上海: 上海大學, 2006.

猜你喜歡
大數據
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合