?

基于Spark技術的大數據智能分析平臺構建

2024-01-30 01:31賈淑滟
濱州學院學報 2023年6期
關鍵詞:高維數據處理數據庫

賈淑滟

(山西旅游職業學院 計算機科學系,山西 太原 030031)

0 引言

用戶在云端輸入檢索信令獲取目標信息時,往往由于云端數據量過于龐大而導致目標信息檢索超時[1]??紤]到這種負面因素影響,以云環境下大數據為支撐的企業開始致力于開發適用于自身的大數據智能分析平臺。通過分散業務流程,實現大數據資源多層級管理,不僅能梳理雜亂無序的網絡數據,還能縮短目標信息的檢索時長,達到改善用戶操作體驗、拉近用戶合作關系、增加企業用戶流量的目的。汪杰等[2]通過B/S結構設計數據分析平臺的基本框架,但該方法存在平臺運行時間過長的問題。孟光偉[3]通過Kafka分布式函數將待處理數據劃分成權重系數不同的多組Kafka集群,并將多組Kafka集群依次輸入由Spark Structured Streaming網絡引擎組成的后臺運算程序,實現大數據智能分析平臺的構建,該方法存在平臺運行效率低、平均絕對誤差較大的問題。張波等[4]采用云環境下大數據開源工具Docker建立基于業務管控系統的數據分析平臺,并在實際應用中結合運營統計裝置,實現大數據智能分析平臺的構建。Ogiela等[5]提出了基于人本分析的數據分析技術,為了充分解釋所有可能發生的偏好,并對其在產品評估、促銷階段的意義和有用性進行了分析,但這兩種方法存在平均絕對誤差較大的問題。Abukmeil等[6]從盲源分離、流形學習和神經網絡架構了用于數據分析的無監督生成學習模型,但是該方法存在平臺運行效率低的問題。李娟等[7]利用映射-歸約(MapReduce,MR)和Hadoop構建了Hadoop云平臺,在云平臺中實現了分布式計算、數據挖掘、業務響應以及用戶交互。雖然,MR技術具有高效性、可擴展性、容錯性和靈活性優勢,但是MR需要進行數據劃分、映射、歸約等多個步驟,存在復雜性、數據傾斜、數據運算成本增加等問題。劉仁芬等[8]在篩選分布空間高維數據特征并進行降維的基礎上,利用改進Spark技術,設計了高維數據增量式聚類算法,該方法降低了存儲空間的占用率,可完成高維數據的有效、可靠聚類。

在構建大數據智能分析平臺時,需要綜合考慮性能、可擴展性、易用性等因素。Spark技術和MR技術都是用于大數據處理的分布式計算框架,也是構建時選擇的主要方法。其中,Spark技術是兼具Scala語義開發模式和分級式數據處理系統的新型平臺開發技術,其對數據的存儲和運行迭代均以云端為主,這使得最終構建的平臺運行空間較大,不易出現由于數據量過大而導致的平臺運行卡頓的問題。MR技術[9]對數據的存儲和運行迭代均以本地磁盤為主,這使得最終構建的平臺運行空間較小,除運行卡頓外,還易發生平臺崩潰和數據丟失的情況。在數據審核的過程中,Spark技術采用循環審核的方式,最大限度過濾干擾數據,使平臺接收到的數據信息優化效果明顯,且平臺負載率明顯下降。MR技術采用非循環審核的方式,易出現干擾數據擾亂平臺數據庫的現象,使平臺負載率上升,數據運算成本增加。因此,本文提出基于Spark技術的大數據智能分析平臺構建方法,以優化數據分析質量。

1 基于局部約束學習方法的大數據降維

局部約束學習方法作為一種數據降維方法,主要通過低維空間嵌入技術解決大數據的高維問題[10]。以高維數據集S為例,局部約束學習方法想要獲取基于高維數據集S的低維映射指征,需通過組合相關函數[11]將數據集轉化成流形函數曲線上的一組分布式高維數據標志點,達到約束標志點領域內映射的目的。組合相關函數為

流形函數曲線為

距離差分原理公式為

微分同胚映射原理公式為

2 大數據智能分析平臺構建

2.1 大數據智能分析平臺的架構

要建立非專業用戶數據便捷檢索的大數據智能分析平臺,需從研發體系、數據分析流程、用戶接口服務等多個角度分析,同時考慮應用服務層、權限管理層、中間服務層和基礎資源層,共同組建基于繁雜數據業務的平臺分層架構圖(圖1)。各層框架的功能:(1)應用服務層。應用服務層主要采用Web Service系統設計,該系統操作界面簡便,方便用戶下載數據、查看數據展示圖、修改數據參數設定,對外接口服務內部信息系統不限制用戶登錄地址,即用戶可以在任意地點登錄并使用該平臺。(2)權限管理層。權限管理層加入Java服務器約束數據集操作對象[13],即每次平臺操作任務僅能登記在一位用戶名下,并保存該用戶近三天內全部檢索數據,方便用戶重復審閱。(3)中間服務層。中間服務層包括主題數據服務模塊和數據自動化匯聚模塊,其中,主題數據服務模塊又被細分為數據監控狀態、數據資源目錄、數據鏈接和數據主題庫,這些分支將主題數據服務模塊進一步細化,不但增加了數據信息配置的精確性,還為開發人員調試服務器提供可靠依據。(4)基礎資源層?;A資源層是指企業上傳的相關數據。以大數據智能分析平臺為例,該平臺需要上傳的資源信息是經過降維處理的大數據信息[14-15],在上傳過程中,平臺會根據Map對應映射表檢測數據維度,達到整體數據維度無誤的目的。

圖1 平臺分層架構

2.2 后臺數據分析服務設計

在利用Spark技術成功建立平臺框架的基礎上,為了進一步提高任務執行效率,參考MR數據網絡質量分析系統,結合數據分析編排器,對MR數據網絡進行優化,實現大數據智能分析平臺的后臺分析服務設計。MR數據網絡質量分析系統是由RESTful API開源包,通過對網絡覆蓋范圍內多角度信息解碼而獲取的以JSON為標準格式的多節點分析系統。MR數據網絡質量分析系統的節點功能如圖2所示。

圖2 MR數據網絡質量分析系統的節點功能

數據分析編排器的整體框架借助上述MR數據網絡質量分析系統,在節點功能不變的前提下,加入Parquet運算公式,獲取基于可視化組件的數據源算子,為后續數據分析工作做好充足準備。Parquet運算公式為

式中,cosε表示Parquet運算常數,f(x2)表示Parquet運算公式與MR數據網絡質量分析系統的結合緊密度[16],f(xest)表示數據源算子的獲取率,Dwt表示數據源算子的獲取誤差。數據分析編排器的整體框架如圖3所示。數據源算子不僅能夠實現多主題數據交叉編排分析,還能將輸入數據與執行計劃直接掛鉤,為用戶提供數據驅動檢索服務的同時,達到后臺數據定位追蹤的效果。

圖3 數據分析編排器的整體框架

3 實驗與結果

3.1 實驗方法

3.2 結果與分析

為了驗證基于Spark技術的大數據智能分析平臺構建的整體有效性,需要對其進行測試。選擇規模不同的三組數據庫,a組數據庫內存量為1×106bit,b組數據庫內存量為1×1011bit,c組數據庫內存量為1×1016bit:分別采用不同方法建立基于三組實驗數據庫的智能分析平臺,根據不同方法的平臺運行時間、平臺運行效率和數據分析平均絕對誤差,推測不同方法的平臺分析性能。

(1) 平臺運行時間。分別采用Spark技術、文獻[2]方法和文獻[3]方法建立基于三組實驗數據庫的智能分析平臺,并計算各平臺的加速比參數(圖4),進而判斷不同方法的平臺運行時間。由圖4可知,采用Spark技術基于三組規模不同的數據庫所建立的智能分析平臺的加速比參數均不低9,相較文獻[2]方法提升了4,相較于文獻[3]方法提升了2,說明Spark技術針對任意規模的數據庫所建立的智能分析平臺,其運行時間均較短,即Spark技術構建的平臺數據處理性能較強。這是因為Spark技術在建立大數據智能分析平臺前,首先對平臺所需要的大數據降維,即將高維數據標志點嵌入低維空間,實現高維數據的低維映射,使最終構建的大數據智能分析平臺運算時間下降。

(2) 平臺運行效率。以三組數據庫為例,規定平臺運行時間不得超過30 min,觀察固定時間向量時,平臺內的數據處理情況。不同方法在固定時間向量下的數據處理情況如圖5所示。由圖5可知,Spark技術在時間向量固定的情況下,基于a組數據庫的智能分析平臺數據處理率接近100%,這說明Spark技術所建立的大數據智能分析平臺數據處理效率較高。文獻[2]方法和文獻[3]方法在時間向量固定的情況下,基于a組數據庫的智能分析平臺數據處理率分別不超過80%和70%,Spark技術比文獻[2]方法和文獻[3]方法所建立的大數據智能分析平臺數據處理效率高出20%~30%。綜上所述,Spark技術具有更高的數據處理效率。

圖5 固定時間向量時的數據處理情況

(3) 數據分析平均絕對誤差。采用Spark技術、文獻[2]方法和文獻[3]方法建立基于三組實驗數據庫的智能分析平臺,并計算各平臺的數據分析平均絕對誤差。不同方法的數據分析平均絕對誤差如圖6所示。采用Spark技術基于三組規模不同的數據庫所建立的智能分析平臺的數據分析平均絕對誤差最大值為0.8%,說明Spark技術構建的智能分析平臺在數據處理過程中發生錯誤的概率較小。文獻[2]方法和文獻[3]方法基于三組規模不同的數據庫所建立的智能分析平臺的數據分析平均絕對誤差最小值分別為1.6%和2.2%,Spark技術比文獻[2]方法和文獻[3]方法構建的智能分析平臺在數據處理過程中發生錯誤的概率低,由此證明了基于Spark技術的大數據智能分析平臺具有更低的數據分析平均絕對誤差。

圖6 不同方法的數據分析平均絕對誤差

4 結論

為了解決數據分析過程中平臺運行時間較長、平臺運行效率較低和數據分析平均絕對誤差高的問題,提出基于Spark技術的大數據智能分析平臺構建的方法。結果表明,所設計平臺的運行時間短、平臺運行效率高、平臺數據分析平均絕對誤差低。如何在保證大數據智能分析平臺高效性的同時,對數據智能分析過程實施全程監控,是下一步研究人員需要努力的重點。

猜你喜歡
高維數據處理數據庫
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
一種改進的GP-CLIQUE自適應高維子空間聚類算法
基于加權自學習散列的高維數據最近鄰查詢算法
數據庫
數據庫
數據庫
數據庫
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
一般非齊次非線性擴散方程的等價變換和高維不變子空間
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合