?

一種大數據融合處理方法研究

2022-05-21 22:14孫亮,賀瑩
今日自動化 2022年2期
關鍵詞:數據融合多元線性回歸

孫亮,賀瑩

[摘? ? 要]通過分析數據融合處理平臺和網絡架構,分析了多元線性回歸數據融合的事件統計方法,在保證數據的一致性、完成性和準確性的前提下,構建從數據模型設計、數據開發、運維全生命周期的數據管控平臺,并以業務數據為核心構建數據資源共享中心的數據體系,建立數據融合處理分析仿真平臺,對相關數據進行融合分析,可為其他業務數據的融合處理和統一管理提供技術思路。

[關鍵詞]數據融合;多元線性回歸;網絡事件

[中圖分類號]TP393 [文獻標志碼]A [文章編號]2095–6487(2022)02–0–03

Research on a big Data Fusion Processing Method

Sun Liang,He Ying

[Abstract]By analyzing the data fusion processing platform and network architecture, the event statistics method of multiple linear regression data fusion is analyzed. On the premise of ensuring the consistency, completeness and accuracy of the data, the construction from data model design, data development, operation Maintain a data management and control platform for the entire life cycle, and build a data system of data resource sharing center with business data as the core, and establish a data fusion processing analysis simulation platform to perform fusion analysis on related data, which can be used for fusion processing and unification of other business data. Management provides technical ideas.

[Keywords]data fusion; multiple linear regression; network event

多源異構網絡信息數據融合主要是基于多種(同類或異類)信息源和數據源,根據某種特定標準在空間和時間上進行數據或信息的整合處理分析,獲取多源數據信息的內容精準描述和深度分析,同時要保證本系統的安全穩定運行。從多源數據融合的層次來說,多源數據融合處理的訓練模型通常從數據、特征、決策三個層次上進行數據的融合處理分析。

多源數據信息的融合處理系統一般都可以分為集中式數據融合、分布式數據融合和集中式/分布式混合融合。在實際工程項目中,面對不同的實際問題,可根據信息源數據特征的差異和關系,可單獨采用多層次多層級的數據融合方法,也可采用組合式數據融合處理方法,以保證數據融合處理的高效和能力最優。當前,基于多源異構網絡數據相融合的數據種類多、數量大,需要將各類數據進行統一存儲,按照分布式的數據采集,集中式的數據管理原則進行高價值情報信息的分析、挖掘和利用。

本文將通過建立數據標準體系和數據質量體系,保證數據的一致性、完成性和準確性,并建立數據開發平臺,提供高效的數據分析、抽取能力,構建從數據模型設計、數據開發、運維、使用一體化全生命周期的數據管控平臺,并以業務數據為核心構建數據資源共享中心的數據體系,從而對數據進行各種維度的有效組織和管理,形成全局的數據架構。

1 系統概述

采用分布式架構建立數據資源共享管理系統,來完成數據交互功能的同時,能有效地實現數據服務高可用和高性能,分布式節點之間對業務數據進行讀寫的并行處理。對各類數據進行存儲管理,以保證系統對各類相關業務數據的服務,可實現對億級在庫數據的秒級全文檢索及相關系統的互聯互通[1-3]。

數據是信息系統的核心,集中、高效、高可擴展的存儲環境是實現數據資源保存、共享、開發利用的基礎設施。存儲備份系統不僅要滿足大容量數據存儲和快速響應的需要,還要保障數據的安全性和一致性,因此需要通過建立集中、高效的存儲備份系統,實現系統在不間斷運行情況下的數據保存和意外情況下的數據恢復。

按照存儲數據的類型劃分,每個存儲節點主要包含結構化數據和非結構化數據兩類數據。結構化數據主要包括業務數據、公共信息庫中的拷貝數據、組織機構及人員信息、權限信息等公共配置信息等;非結構化數據主要包括工作文書、文書審批表、各種圖片、掃描件等附件等。本文綜合考慮數據類型、業務應用模式和數據規模等多方面的因素,以及數據備份恢復和導入導出等系統維護性需求,結構化數據通過數據庫進行存儲,非結構化數據通過文件系統進行存儲,結構化數據與非結構化數據的關聯通過在數據庫中保存文件地址的映射來實現。

2 系統架構

數據資源共享管理系統基于Hadoop的數據基礎軟件,Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下開發分布式程序,充分利用集群的威力進行高速運算和存儲,具有可靠、高效、可伸縮的特點。

Hadoop的核心是YARN,HDFS和MapReduce。HDFS是分布式文件存儲系統,用于存儲海量數據;MapReduce是并行處理框架,實現任務分解和調度。Hadoop可以用來搭建大型數據倉庫,對海量數據進行存儲、分析、處理和統計等業務,功能十分強大。

基于Hadoop的數據融處理系統架構的設計原則就是要滿足大數據輸入、存儲、處理和分析等需求,該系統主要分為基礎支撐層、數據處理與分析層和應用系統層。其中,基礎支撐層主要由Hadoop系統組件和其他數據預處理工具組成,在完成數據存儲、計算和網絡傳輸等任務以外,還提供基于分布式架構的流計算、在線/離線批處理以及圖形計算等服務;數據處理與分析層由多個數據處理和分析功能模塊組成,在完成基本數據抽取與統計分析任務的基礎上,還具備結構化、半結構化、非結構化以及組合化數據轉換處理分析、信息內容深度理解與挖掘等能力,該層核心功能主要包括自然語言處理、圖像視頻內容深度理解、數字文本深度挖掘關聯與分析等,數據處理與分析層對于數據處理的能力大小將很大程度影響應用系統層數據統計分析與綜合結果展示的準確性和全面性;應用系統層由SSH框架和綜合結果可視化展示工具組成,該層的任務主要是對數據處理與分析層輸出的處理分析結果的進一步分析。整個系統框架的構建主要是基于各類開源的組件和插件,Hadoop分布式文件系統為本系統提供存儲能力,本系統支持Oracle、MySQL等結構化數據的存儲,核心計算功能模塊主要包括MapReduce、Storm、Spark以及定制化分布式視頻處理引擎,基于SSH框架構建可視化功能模塊,并支持按照需求靈活配置。

3 數據融合處理分析

數據融合處理涉及到系統端到端的各個環節,包括數據接入、數據預處理、數據存儲、數據處理、數據可視化等。其中,數據接入是基于規范化的傳輸協議和數據格式,從不同應用和數據源(如互聯網、物聯網等)進行離線或實時的數據采集、傳輸、分發;數據預處理是對數據進行整理、清洗、轉換等,以便支撐后續數據處理、查詢、分析等進一步應用;數據存儲基于HDFS 分布式文件系統對海量半結構化和非結構化數據的存儲,支撐內容檢索、深度挖掘、綜合分析等大數據分析應用;數據處理是根據業務實際情況進行數據離線處理、實時處理,并利用機器學習算法對大規模數據進行深度挖掘分析;數據可視化借助圖表、2D/3D 視圖等多種方式,直觀反映出數據各維度指標的變化趨勢,用以支撐用戶分析、監控和數據價值挖掘。

數據采集主要實現多源、多方式、多類別的大數據采集、匯聚、去重等功能;數據存儲主要實現關系型和非關系型數據的統一管理,包括壓縮、分布式存儲、加密等;數據分析服務主要實現大數據環境下統一數據訪問接口設置,通過Java、Ruby、Python、PHP、Node.js、Perl等開發語言與框架以及平臺提供的API訪問數據資源。

多源異構數據采集是系統核心模塊,包括數據采集、抽取、清洗、轉換、加載、資源管理、更新管理、審核、融合和數據目錄服務等功能;通過XML服務接口、分布式文件讀取、關系數據庫同步抽取等多種方式,將元數據抽取到大數據分析平臺,并經過數據預處理操作,完成數據ETL(清洗、轉換、加載)等流程,將采集到的數據進行數據規范化,形成清潔大數據池供各個終端用戶通過API等形式調用。

數據處理平臺包括外網區、用戶訪問區、輔助安全區、信息系統區、大數據集群、云計算集群、運維管理區等:外網區由多臺高性能路由器/核心交換機連接外網運營商,并且構成骨干網;內網的數據中心網絡采用最新的數據中心以太網技術,支持10G的網內服務器之間的高速數據傳輸;用戶訪問區是所有人員公用的網絡區域,可以通過上網賬號和密碼使用無線網絡或者企業網接入訪問數據處理平臺;輔助安全區包括流量控制、防拒絕服務攻擊(DDOS)、入侵檢測(IDS)、入侵防護系統(IPS)、 虛擬專用網(SSL VPN)、漏洞掃描、數據庫安全審計系統等。

通過整合多源異構數據庫,構建海量數據優化存儲系統;支持ORACLE、SQL Server、MySQL等大型的主流數據庫;支持Windows、Linux等操作系統;采用Web Service技術、利用XML作為系統接口的數據交換標準,進行信息資源整合;利用SSL安全協議保護登陸過程的賬號、密碼等信息。

此外,數據安全防護是整個系統非常重要的功能模塊,決定了整個系統數據的安全運維和穩定分析。數據庫系統及其數據是系統中的核心資產,面對目前數據庫和應用系統在邏輯和技術上層出不窮的安全漏洞,以及管理層制定的監督管理制度缺乏有效執行保障的現狀,本系統通過建立高可靠性的安全時空數據庫架構,從根本上杜絕任何技術手段或違規操作對數據的非法獲取和篡改。系統具有海量時空多媒體信息的集群管理、分布式查詢與處理功能的跨平臺,分布式、高安全的數據庫管理系統平臺軟件,主要功能包括:關系型數據庫功能;空間數據管理功能;多媒體數據管理功能;數據集群管理功能;高安全數據管理功能(支持數據庫管理員、安全管理員和審計管理員的分立管理,多策略訪問控制,細粒度的審計功能,強用戶身份安全驗證機制,隱蔽信道通信監測和加密通信等)。

4 基于多元線性回歸數據融合的事件統計分析

在數據融合處理計算平臺和網絡平臺搭建的基礎上,基于多元線性回歸模型對大規模業務數據進行融合處理,并在此基礎上對某事件進行統計分析。

多元線性回歸模型是反映自變量與因變量之間“緊密性”的關系。因此,在分析數據的基礎上,采用多元線性回歸的方法來衡量數據變化的趨勢走向。假設影響因變量y的自變量個數為N,自變量記為x1,x2,…,xn,則自變量與因變量是線性關系:

Y=β0+β1x1+β2x2+…+βnxn+ε

其中,β1,β2,…,βn是回歸系數;ε是與x1,x2,…,xn無關的未知參數,取值范圍為(0,σ2)。同時,在事件B出現的前提下,事件A出現的概率等于A和B都出現的概率除以B出現的概率,具體如下:

其中,P(A|B)是后驗概率;P(A)是先驗概率;P(B|A)/P(B)是一個調整因子,是在已知某些觀測所得到的結果。在預估先驗概率的前提下,再加入觀測結果,通過觀測結果來增強或者削弱先驗概率,由此得到更接近事實的后驗概率。

多源異構網絡安全狀態數據差異性很大,可能是實時數據,也可能是非實時數據;可能是連續數據,也可能是離散數據;可能是互相支持的數據,也可能是互相矛盾的數據。在多元線性回歸模型構建基礎上進行數據融合,充分利用多源異構網絡安全狀態數據,將其冗余或互補的數據依據某種準則進行融合,以獲得對待識別安全事件的一致性描述或解釋,使得數據融合系統得到的實際輸出比依靠任何單一數據源構成的系統獲得更優越的性能。

5 仿真結果

通過計算機模擬數據融合處理計算平臺和網絡平臺,并結合基于多元線性回歸數據融合的事件統計分析方法,對某互聯網事件進行分析和結果呈現。在該數據呈現中,擬定呈現一種數據,即以分區某專業內數據產生時間為導向的數據量展示。擬用以時間為導向的柱狀圖來展示該專業內的數據變化情況。最終呈現效果如圖1所示。

從上面數據變化展示圖中可以直觀地看到某網絡事件隨時間的變化規律,以及在什么時間段事件的發酵率最大,可為下一步針對該事件進行溯源分析和未來事件發展趨勢預測提供支撐。

6 結論

通過分析數據融合處理平臺和網絡架構,分析了多元線性回歸數據融合的事件統計方法,在保證數據的一致性、完成性和準確性的前提下,構建從數據模型設計、數據開發、運維、使用一體化全生命周期的數據管控平臺,并以業務數據為核心構建數據資源共享中心的數據體系,并建立數據融合處理分析仿真平臺。針對某網絡事件,對事件相關數據進行融合分析,可為其他業務數據的融合處理和統一管理提供技術思路。

參考文獻

[1] 肖璐雯.大數據形勢下的廣播電視安全播出技術[J].科技資訊,2020,18(11):2.

[2] 陳青嬌.大數據時代高校檔案管理工作創新[J].中國管理信息化,2020,23(12):2.

[3] 李明.多源信息融合技術發展簡述[J].艦船電子工程,2017,37(6):5-9.

猜你喜歡
數據融合多元線性回歸
多傳感器數據融合技術在機房監控系統中的應用
《可靠性工程》課程教學的幾點思考
基于組合模型的卷煙市場需求預測研究
基于多元線性回歸分析的冬季鳥類生境選擇研究
基于數據融合的家庭遠程監護系統研究
我國上市商業銀行信貸資產證券化效應實證研究
云學習平臺大學生學業成績預測與干預研究
全國主要市轄區的房價收入比影響因素研究
船舶動力定位中的數據融合技術文獻綜述
利用計量工具比較東西部的經濟狀況
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合