?

大數據背景下MapReduce并行計算模式研究進展

2018-02-25 06:21王嘉儀
電子技術與軟件工程 2018年9期
關鍵詞:并行計算研究進展大數據

王嘉儀

摘要 計算機技術的發展導致互聯網中積聚了大量的信息,如何對這些大量數據進行搜集、篩選以及處理成為一個重要的課題。在此背景下,簡單易用的MapReduce成為目前大數據處理最成功的主流并行計算模式。本文對大數據背景下MapReduce并行計算模式研究現狀進行了分析,并且展望了該領域的發展態勢。

【關鍵詞】大數據 并行計算 研究進展

近幾年來,隨著計算機和信息技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的數據呈爆炸性增長。動輒達到數百TB甚至數十至數百PB規模的行業/企業大數據己遠遠超出了傳統的計算技術和信息系統的處理能力,因此,尋求有效的大數據處理技術、方法和手段已經成為全世界的廣泛關注的研究熱點。

MapReduce最早是由Google公司研究提出的一種面向大規模數據處理的并行計算模型和方法。2003年和2004年,Google公司在國際會議上分別發表了兩篇關于Google分布式文件系統和MapReduce的論文,公布了Google的GFS和MapReduce的基本原理和主要設計思想:MapReduce對具有簡單數據關系、易于劃分的大規模數據采用“分而治之”的并行處理思想;然后將大量重復的數據記錄處理過程總結成Map和Reduce兩個抽象的操作;最后MapReduce提供了一個統一的并行計算框架,把并行計算所涉及到的諸多系統層細節都交給計算框架去完成,以此大大簡化了程序員進行并行化程序設計的負擔。目前,MapReduce的簡單易用性使其成為目前大數據處理最成功的主流并行計算模式。本文對近年來MapReduce并行計算模式性能優化研究進展做出簡要介紹。

1 面向新型硬件的性能優化

MapReduce在最初推出時將更多的焦點放在了工作節點之間的高層次并行,而忽略了對于多核或者GPU等新型硬件的具有針對性的優化處理。為了克服MapReduce的缺陷,相關的人員不斷進行研究創新,進而提出了Phoenix。至此之后,諸多的學者針對Phoenix進行了大量的研究,例如,Yoo、Romano和Kozyrakis以UltraSPARC處理器為基礎針對MapReduce進行了性能改善,改善的方面包括算法、實現和OS接口等。Rafique等、Linderman等則分析了MapReduce在不對稱的多核集群和異構多核集群方面面臨的挑戰,并且針對這些挑戰提出了應對的辦法。在此基礎上,為了進一步改善計算能力,諸多學者對計算模式也進行了大量的研究,研究的方向主要包括改善迭代能力、提高調度效率、改善流水線處理以及增加索引等。

2 面向流處理的性能優化

大數據環境中,數據流的特點是數據所擁有的價值與其時效存在密切的聯系,隨著時間的延長,數據所具有的價值也會隨之降低,這就意味著在改善數據流系統時需要將低延遲作為遵循的首要原則。傳統的MapReduce數據流處理手段主要將沒有任何邊界的數據流分割成相對較小的而且具有明顯邊界的批處理集,然后采用批處理方式對數據進行挖掘研究。這種方式存在著一定的局限性,會產生很多不是十分重要的磁盤和網絡I/O,這樣就不能達到流式應用對于實時性的需求。

為了進一步改善流處理模式的性能,很多學者嘗試將MapReduce模型和具有代表性的數據流系統進行融合,進而產生效率更高的處理框架。Kumar等以IBM的System數據流處理中間件為載體,對MapReduce模型進行了改善,進而研發了DEDUCE系統,該系統的優勢在于可以在同一時間進行數據的批量和流處理。C-MR則將滑動窗口理念融合到MapReduce模型中,進而保證數據流能夠在不間斷的情況下持續進行,這種改善方法的缺陷在與這種方式僅僅適用于具有多核的單機系統。

3 面向圖數據的性能優化

社交網絡、Web鏈接關系圖等都包含大量具有復雜關系的圖數據,這些圖數據規模很大,常常達到數十億的頂點和上萬億的邊數,傳統的MapReduce計算模式處理這種具有復雜數據關系的圖數據通常不能適應,需要采用專用圖并行計算模型則將圖計算所具有基礎特點考慮在內,即該種處理模式的內部就已經具備了專門針對大圖的處理機制。圖數據處理主要解決大規模數據的分布式存儲管理問題。由于圖數據具有很強的數據關系,分布式環境中的圖計算網絡通信的成本很高,解決這一問題的方式是圖劃分,傳統的圖劃分方式包括ParMetis等,近年來很多學者開始研究新的圖劃分方法,例如Trinity使用多層標簽傳遞的劃分方式,GPS和Mizan則使用動態劃分方式。

4 結論

盡管MapReduce計算模型存在一些不足,但由于MapReduce己發展成為目前最主流的大數據處理并行計算模式、并得到廣泛的使用,因此,目前研究者并不會拋棄MapReduce模型,而是試圖不斷改進和發展現有的平臺,增加其對各種不同大數據處理問題的適用性,以便能解決現有版本在計算性能、計算模式、系統構架和處理能力上的諸多不足。

參考文獻

[1]ONIZUKA M,KATO H,HIDAKA S,et al.Optimization for iterative queries onMap Reduce[C].Proceedings of the VLDBEndowment (VLDB 2014),2 014,7 (04).

[2]SHAO B,WANG H,LIY.Trinity:adistributed graph engine on amemory cloud [C]. Proceedings of theACMSIGMOD

Interna tional

Conferenceon Management of Data (SIGMOD 2013).New York: [s.n.],2 013:5 05-516.

[3]TIAN Y,BALMIN A,CORSTEN SA, et al.From" Think Like a Vertex" to" ThinkLike a Graph” [C].Proceedingsof the VLDB Endowment (VLDB2013),20t3,7 (03):193-204.

猜你喜歡
并行計算研究進展大數據
MiRNA-145在消化系統惡性腫瘤中的研究進展
離子束拋光研究進展
獨腳金的研究進展
云計算中MapReduce分布式并行處理框架的研究與搭建
并行硬件簡介
EGFR核轉位與DNA損傷修復研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合