?

構建重型機械裝備制造企業大數據平臺相關的技術架構研究

2023-07-17 15:09汪憶鐘世成陳素瓊

計算機應用文摘·觸控 2023年13期

關鍵詞：大數據平臺

汪憶鐘世成陳素瓊

摘要：文章基于重型機械裝備制造企業的數字化發展現狀．對企業在進行數字化轉型中面臨的數據孤島、數據沉睡束發揮價值、數據使用成本較高等問題進行了分析，并深入闡述了數字化轉型涉及的大數據相關技術架構，提出了大數據平臺建設可選的技術解決方案，為重型機械裝備制造企業構建大數據平臺技術架構提供借鑒和參考。

關鍵詞：機械裝備制造企業；大數據平臺；技術架構

中圖法分類號：TP311 文獻標識碼：A

１概述

１．１研究背景

作為國民經濟的主體，重型機械裝備制造企業面臨數字化轉型的諸多難題和挑戰，其中最突出的問題是：傳統的“煙囪式” 應用開發模式造成的“數據孤島”現象嚴重，使得數據難以發揮價值；諸多業務系統數據（如ＰＤＭ系統、ＥＲＰ系統）集成度不高，經常出現數據找不到、用不上、不準確等困難；由于數據存儲格式、代碼標準不統一以及數據質量參差不齊導致數據不可用的現象時有發生；數據出現重復存儲，重復計算，取數技術難度較大，對業務人員及ＩＴ人員技術要求過高，造成數據使用成本較高；企業目前的信息化系統繁多，集成度低，缺乏高效可用的數據中心，企業內部的數據資產很難盤點，而且缺乏有效應用服務，數據資產價值也很難評估；信息化技術平臺工具繁多，多廠商技術平臺集成困難，以至于體驗差、運維成本極高。

１．２問題的提出

本文基于重型機械裝備制造企業業務領域的大數據平臺構建需求，對其進行了分析，并指出研究方向。在此基礎上，如何基于大數據平臺生態技術架構，構建重型機械裝備制造企業大數據平臺技術解決方案是本文的核心研究問題。

２認識Ｈａｄｏｏｐ大數據平臺

２．１Ｈａｄｏｏｐ的起源

Ｈａｄｏｏｐ是一個由Ａｐａｃｈｅ基金會所開發的分布式系統基礎架構，是一個能夠對大量數據進行分布式處理的軟件框架，主要解決海量數據的存儲和分析計算問題。Ｈａｄｏｏｐ是由ＤｏｕｇＣｕｔｔｉｎｇ和ＭｉｋｅＣａｆａｒｅｌｌａ于２００２年所創建的Ｎｕｔｃｈ項目，Ｎｕｔｃｈ是一個開源Ｊａｖａ實現的搜索引擎，目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能［１］。

２００３～２００４年，Ｇｏｏｇｌｅ發表了ＧＦＳ（ＧｏｏｇｌｅＦｉｌｅＳｙｓｔｅｍ，分布式文件系統）和ＭａｐＲｅｄｕｃｅ（開源分布式并行計算框架）２篇論文，受此論文的啟發，２００４年，Ｎｕｔｃｈ創始人ＤｏｕｇＣｕｔｔｉｎｇ基于Ｇｏｏｇｌｅ的ＧＦＳ論文實現了分布式文件存儲系統ＮＤＦＳ。２００５年，ＤｏｕｇＣｕｔｔｉｎｇ又基于Ｇｏｏｇｌｅ的ＭａｐＲｅｄｕｃｅ論文，在Ｎｕｔｃｈ搜索引擎實現了該功能，同年Ｈａｄｏｏｐ作為Ｌｕｃｅｎｅ的子項目Ｎｕｔｃｈ的一部分正式引入Ａｐａｃｈｅ基金會。２００６年２月，Ｎｕｔｃｈ被分離出來成為一套完整獨立的軟件，命名為Ｈａｄｏｏｐ，它是以ＤｏｕｇＣｕｔｔｉｎｇ兒子的毛絨玩具象命名的，Ｈａｄｏｏｐ起源于Ｇｏｏｇｌｅ的三大論文，ＧＦＳ對應演變為ＨＤＦＳ，ＧｏｏｇｌｅＭａｐＲｅｄｕｃｅ對應演變為ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ，ＢｉｇＴａｂｌｅ對應演變為ＨＢａｓｅ［２］。

２．２Ｈａｄｏｏｐ的核心組件

在大數據時代，如何解決大規模海量數據存儲和分析是關鍵，而Ｈａｄｏｏｐ項目作為大數據處理的框架，其核心功能就是分布式存儲（ＨＤＦＳ）和分布式計算（ＭａｐＲｅｄｕｃｅ）以及資源管理調度器（ＹＡＲＮ），下文介紹Ｈａｄｏｏｐ的核心功能。

（１）分布式文件存儲ＨＤＦＳ。

ＨＤＦＳ源于Ｇｏｏｇｌｅ發表的一篇ＧＦＳ的論文，是描述Ｇｏｏｇｌｅ內部的一個叫做ＧＦＳ的分布式大規模文件系統，其具有強大的可伸縮性和容錯性，之后ＤｏｕｇＣｕｔｔｉｎｇ以ＧＦＳ的論文思想為基礎，開發出了一個新的文件系統叫ＨＤＦＳ，并在此基礎上形成了一個單獨的子項目，最終成為Ｈａｄｏｏｐ的核心組件之一。作為大數據生態最底層的分布式存儲文件系統，其主要解決海量數據的存儲問題，ＨＤＦＳ將數據存儲在物理分散的多個存儲節點上，然后對這些節點的資源進行統一的管理與分配，并且提供統一的訪問接口，像是訪問一個普通文件系統一樣使用分布式文件系統。

（２）分布式計算ＭａｐＲｅｄｕｃｅ。

作為Ｈａｄｏｏｐ生態的分布式計算組件，ＭａｐＲｅｄｕｃｅ是一種并行編程模式，采用了分而治之的思想———先分后合，適用于大規模數據的并行處理，其工作原理是將待求解的復雜計算問題，先分解成若干規模較小的問題，然后分別求得各部分的結果，把各部分的結果進行合并，最后得到整個問題的最終結果。

ＭａｐＲｅｄｕｃｅ的特點是易于編程，具有良好的擴展性和高容錯性，適合大規模海量數據的離線處理。

ＭａｐＲｅｄｕｃｅ的核心思想是Ｍａｐ和Ｒｅｄｕｃｅ，它們分別對應ｍａｐ函數和ｒｅｄｕｃｅ函數，這２個函數由應用程序開發者負責具體實現，開發者僅需要編寫少量的業務邏輯代碼，不需要處理其他應用方面的各種復雜問題，如數據存儲、資源調度、容錯處理、結果收集、網絡通信等，這些問題全部由ＭａｐＲｅｄｕｃｅ框架負責處理。需注意的是，并不是所有任務都適合用ＭａｐＲｅｄｕｃｅ，能用ＭａｐＲｅｄｕｃｅ來處理的任務有一個基本要求，即待處理的數據集可以分解成許多小的數據集，而且每一個小數據集都可以完全并行地進行處理。

３Ｈａｄｏｏｐ生態圈

３．１Ｈａｄｏｏｐ生態圈組件

Ｈａｄｏｏｐ是一個分布式系統基礎架構，其利用分布式集群對海量數據進行高速并行運算以及存儲，開發人員在進行開發分布式程序中，無需了解分布式底層細節。Ｈａｄｏｏｐ不是一個孤立的技術，而是一套完整的生態圈，目前Ｈａｄｏｏｐ生態包含多個組件，除了核心組件ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ及ＹＡＲＮ外，還包括ＨＢａｓｅ，Ｈｉｖｅ，ＹＡＲＮ，Ｆｌｕｍｅ，Ｓｑｏｏｐ，Ｚｏｏｋｅｅｐｅｒ，Ａｍｂａｒｉ，Ｏｏｚｉｅ，Ｍａｈｏｕｔ，Ｐｉｇ等。

３．２Ｈａｄｏｏｐ版本

大數據處理框架Ｈａｄｏｏｐ的版本經歷了Ｈａｄｏｏｐ１．ｘ，Ｈａｄｏｏｐ２．ｘ以及最新Ｈａｄｏｏｐ３．ｘ版本。首先，Ｈａｄｏｏｐ１１．ｘ版本到Ｈａｄｏｏｐ１２．ｘ版本變遷的最大變化是對ＭａｐＲｅｄｕｃｅ進行了大的拆分，Ｈａｄｏｏｐ１．ｘ主要由ＭａｐＲｅｄｕｃｅ（分布式計算）和ＨＤＦＳ（分布式存儲）構成，Ｈａｄｏｏｐ２．ｘ在第１代版本的基礎上演變而來，在此基礎上增加了ＹＡＲＮ（資源調度管理系統）以及其他的一些組件，主要解決了Ｈａｄｏｏｐ１．ｘ中ＭａｐＲｅｄｕｃｅ和ＨＤＦＳ中存在的各種問題，如ＭａｐＲｅｄｕｃｅ在擴展性和多框架方面支持不足等。在Ｈａｄｏｏｐ２．ｘ時代增加的ＹＡＲＮ組件不僅支持ＭａｐＲｅｄｕｃｅ，還支持其他的計算框架，其具有較好的擴展性、可用性及向后兼容性等，如兼容支持后來的Ｓｐａｒｋ，Ｆｌｉｎｋ等框架。

Ｈａｄｏｏｐ３．ｘ架構組件和Ｈａｄｏｏｐ２．ｘ架構組件類似，Ｈａｄｏｏｐ３．ｘ著重于性能優化。從Ｈａｄｏｏｐ２．ｘ到Ｈａｄｏｏｐ３．ｘ版本，構架組件已經沒有太大的改變，Ｈａｄｏｏｐ３．ｘ增加了許多新特性，如支持ｃｕｐ的多重運算、多重備份，而且內部的數據還支持動態平衡，提高了存儲效率，采用了糾刪碼存儲等，主要性能優化有以下幾個方面。

（１）通用方面：精簡內核、類路徑隔離、ｓｈｅｌｌ腳本重構。

（２）ＨＤＦＳ存儲方面：支持ＥＣ（ＥｒａｓｕｒｅＣｏｄｅ）糾刪碼、支持多ＮａｍｅＮｏｄｅ。

（３）ＭａｐＲｅｄｕｃｅ計算方面：任務本地化優化、內存參數自動推斷。

（４）ＨａｄｏｏｐＹＡＲＮ時間線服務方面：Ｈａｄｏｏｐ３．ｘ采用ＴｉｍｅｌｉｎｅＳｅｒｖｉｃｅＶ２時間線版本服務，具有分布式寫入器體系結構和可擴展的后端存儲，并將數據的寫入與讀取分開，具有更強的可伸縮性、隊列配置、可靠性等。

４大數據計算架構

４．１離線計算架構

離線計算是指對海量靜態數據進行處理和分析，并產生相應的數據結果，供下一步數據應用使用的過程。其特點是處理時間要求不高，處理數據量大，處理格式多樣，占用計算存儲資源多，通常使用ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ，ＳｐａｒｋＳＱＬ等計算框架，以ＨＤＦＳ為數據存儲，ＹＡＲＮ為資源調度引擎，為各種離線批處理引擎提供資源調度能力，實現了多租戶資源分配的基礎。根據數據來源到應用的流程，可以將離線處理架構分為數據源、數據采集、離線處理引擎、業務應用層［３］。

（１）數據源：數據源的種類包括流式數據（如Ｓｏｃｋｅｔ數據流），文件數據庫等。

（２）數據采集系統：Ｆｌｕｍｅ用于批量采集數據文件、日志文件，Ｓｑｏｏｐ用于批量采集數據庫的數據，第三方ＥＴＬ采集工具用于數據采集加載轉換。

（３）離線處理引擎：離線處理的引擎有Ｈｉｖｅ，ＳｐａｒｋＳＱＬ，ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ。Ｈｉｖｅ使用傳統ＳＱＬ批處理引擎，用于處理ＳＱＬ類批處理作業，在處理海量數據時表現穩定，但處理速度較慢。ＭａｐＲｅｄｕｃｅ為傳統批處理引擎，用于處理非ＳＱＬ類，其廣泛應用于數據挖掘和機器學習類的批處理作業，在處理海量數據時表現穩定，但處理速度較慢。ＳｐａｒｋＳＱＬ為新型ＳＱＬ批處理引擎，用于處理ＳＱＬ類批處理作業，相較于ＭａｐＲｅｄｕｃｅ，其處理速度較快。Ｓｐａｒｋ為新型批處理引擎，用于處理非ＳＱＬ類，以及數據挖掘和機器學習類的批處理作業，處理速度較快。一般推薦優先采用Ｓｐａｒｋ／ＳｐａｒｋＳＱＬ，當有存量應用時可以使用ＭａｐＲｅｄｕｃｅ／Ｈｉｖｅ，２種處理引擎也可以同時使用。

４．２實時計算架構

實時計算是指數據從生成到實時采集、實時緩存、實時計算分析、實時展示應用等處理流程，完成時間在秒級甚至毫秒級。其特點是處理速度快，且要求端到端的處理速度需要達到秒級，甚至毫秒級。實時計算架構分成數據源、數據采集、實時計算處理引擎、業務應用層。

（１）數據源：包括關系型數據庫數據、實時數據流、實時文件數據。

（２）數據采集：實時采集數據源產生的數據，并將數據緩存到分布式消息系統Ｋａｆｋａ中，通過實時采集工具Ｋａｆｋａ和第三方采集工具（如ＧｏｌｄｅｎＧａｔｅ數據庫）實時采集與定制化實時采集數據。

（３）實時處理引擎：實時處理引擎包括ＳｐａｒｋＳｔｒｅａｍｉｎｇ，ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ，Ｆｌｉｎｋ，Ｓｔｏｒｍ，其主要作用是對實時數據進行快速分析。ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ是基于Ｓｐａｒｋ的流處理引擎，支持秒以內的流處理分析；Ｆｌｉｎｋ是新一代流處理引擎，支持毫秒級的流處理分析；ＳｐａｒｋＳｔｒｅａｍｉｎｇ以ＳｐａｒｋＣｏｒｅ為基礎，提供數據的流式計算功能，支持秒以內的流處理分析；Ｓｔｏｒｍ是一個事件驅動的實時流計算框架，支持毫秒級以內的流處理分析。一般根據實際需求，選擇不同的流計算引擎。

（４）實時應用：數據應用是大數據技術和應用的目標。大數據實時計算架構為大數據的實時業務應用提供了一種通用的架構，其需要根據行業領域、公司技術積累以及業務場景等，對業務需求、產品設計、技術選型到實現方案流程等進行具體問題具體分析，并應用大數據可視化技術，對其進行深入研究，最終形成更為明確的應用標準。

５重型裝備制造業大數據技術解決方案

通過構建統一的大數據共享和分析平臺，對重型機械裝備制造企業各類業務進行前瞻性預測及分析，為集團各層次用戶提供統一的決策分析支持，同時可以提高數據的共享與流轉、交換能力。

５．１總體解決方案

重型機械裝備制造企業大數據平臺主要實現以下幾方面的應用。

（１）實現數據共享。通過數據平臺實現數據集中，確保企業集團各級部門均可在保證數據隱私和安全的前提下使用數據，充分發揮數據作為企業重要資產的業務價值。

（２）加強業務協作。各個業務系統中的數據在數據平臺中進行整合，建立產品、客戶等數據的企業級視圖，有效促進業務的集成和協作，并為企業級分析、銷售提供基礎。

（３）促進業務及管理創新。企業集團營銷人員可以基于明細、可信的數據，進行多維分析和數據挖掘，為企業業務及管理創新創造有利條件。

（４）改善數據質量。從中長期看，數據倉庫對企業分散在各個業務系統中的數據進行整合、清洗，有助于改善企業整體數據質量，提高數據的實用性。

（５）提升企業數字化、智能化建設效率。通過大數據平臺對數據進行集中，為管理分析、挖掘預測類等系統提供一致的數據基礎，改變現有系統數據來源多、數據處理復雜的現狀，實現應用系統建設模式的轉變，提升相關ＩＴ系統的建設和運行效率。

本文提出的重型機械裝備制造企業大數據平臺架構是基于信創龍頭企業“中國電子”的產品線。其主要產品有大數據基礎平臺、數據中臺，如圖１所示。

５．２大數據基礎平臺技術架構

將中國電子的大數據基礎平臺產品作為解決方案，該公司產品“大數據基礎平臺”兼容Ｈａｄｏｏｐ等主流開源存儲與計算引擎、兼容市面上常見的商用大數據基礎平臺，最大化兼容目標企業已有的大數據平臺體系，充分利舊、保護投資［４］。大數據基礎平臺技術架構如圖２所示。

５．３數據中臺技術架構

在大數據平臺總體架構中，作為技術解決方案架構中的核心產品，數據中臺部署于ＩＡＡＳ層、ＰＡＡＳ層之上和應用體系之下，處于企業的數字化轉型總體架構中的底座位置。數據中臺是大型企業總體ＩＴ架構中的核心，該產品是構建數據資產中心的一站式數據技術工具，是支撐各類數據應用建設的基礎服務體系，將長期承載著大型企業的數據資產統一運營，提供螺旋向上的數據治理與數據價值發揮的能力。數據中臺技術架構如圖３所示。

６結束語

本文從研究背景、問題的提出，再到具體技術架構的研究，對Ｈａｄｏｏｐ大數據平臺及生態圈、Ｓｐａｒｋ技術架構、大數據離線計算架構、實時計算架構進行闡述，并提出了重型機械裝備制造企業以信創龍頭企業的產品線為基礎的大數據平臺技術解決方案，旨在為重型機械裝備制造業大數據平臺的構建提供參考。

參考文獻：

［１］盧瀅．大數據技術在智慧工程中的應用［Ｊ］．電子技術與軟件工程，２０２２（２）：２０８?２１１．

［２］黃碩．省級廣電網絡大數據平臺設計與建設［Ｊ］．廣播與電視技術，２０２２，４９（６）：８１?８５．

［３］凌諾娟．云農場智慧服務大數據平臺研究與實現［Ｄ］．合肥：安徽農業大學，２０２２．

［４］中國電子技術標準化研究院．大數據平臺技術白皮書［Ｒ］．北京：中國電子系統技術有限公司，２０２１．

作者簡介：汪憶（１９８１—），碩士，高級工程師，研究方向：大數據技術、人工智能技術、機械裝備制造業信息化、高等職業教育。

猜你喜歡

大數據平臺

基于大數據平臺的電網全業務數據分析域研究

電腦知識與技術(2016年34期)2017-04-15

基于大數據的農產品質量安全追溯平臺建設研究

科技創新導報(2017年3期)2017-04-13

全國耕地質量大數據平臺設計

現代農業科技(2016年22期)2017-03-24

基于大數據平臺的日志分析預警技術研究

電腦知識與技術(2016年32期)2017-03-17

基于大數據平臺的高校思想政治教育

黑龍江教育學院學報(2017年1期)2017-03-02

Hadoop性能測試自動化研究

軟件導刊(2016年12期)2017-01-21

基于大數據的智能停車場管理系統設計

物聯網技術(2016年11期)2017-01-12

基于大數據分析的智慧倉儲運營支撐平臺設計

電子技術與軟件工程(2016年20期)2016-12-21

襪業行業大數據平臺的應用研究

電腦知識與技術(2016年21期)2016-10-18

高校思想政治教育大數據平臺運行機制探析

思想政治教育研究(2016年3期)2016-07-07

計算機應用文摘·觸控2023年13期

計算機應用文摘·觸控的其它文章: 新工科背景下低代碼平臺在“大學計算機基礎”課程中的應用; 招投標在園林設計類課程中的創新應用; “計算機應用”課程的混合式教學模式研究; 教師在線學習的學習者畫像研究; 智慧教育理念下教學云平臺促進高校外語有效教學環境的構建與實踐; 基于OBE理念的“操作系統原理”一流課程建設的探索與思考

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合