?

構建重型機械裝備制造企業大數據平臺相關的技術架構研究

2023-07-17 15:09汪憶鐘世成陳素瓊
計算機應用文摘·觸控 2023年13期
關鍵詞:大數據平臺

汪憶 鐘世成 陳素瓊

摘要:文章基于重型機械裝備制造企業的數字化發展現狀.對企業在進行數字化轉型中面臨的數據孤島、數據沉睡束發揮價值、數據使用成本較高等問題進行了分析,并深入闡述了數字化轉型涉及的大數據相關技術架構,提出了大數據平臺建設可選的技術解決方案,為重型機械裝備制造企業構建大數據平臺技術架構提供借鑒和參考。

關鍵詞:機械裝備制造企業;大數據平臺;技術架構

中圖法分類號:TP311 文獻標識碼:A

1 概述

1.1 研究背景

作為國民經濟的主體,重型機械裝備制造企業面臨數字化轉型的諸多難題和挑戰,其中最突出的問題是:傳統的“煙囪式” 應用開發模式造成的“數據孤島”現象嚴重,使得數據難以發揮價值;諸多業務系統數據(如PDM 系統、ERP 系統)集成度不高,經常出現數據找不到、用不上、不準確等困難;由于數據存儲格式、代碼標準不統一以及數據質量參差不齊導致數據不可用的現象時有發生;數據出現重復存儲,重復計算,取數技術難度較大,對業務人員及IT 人員技術要求過高,造成數據使用成本較高;企業目前的信息化系統繁多,集成度低,缺乏高效可用的數據中心,企業內部的數據資產很難盤點,而且缺乏有效應用服務,數據資產價值也很難評估;信息化技術平臺工具繁多,多廠商技術平臺集成困難,以至于體驗差、運維成本極高。

1.2 問題的提出

本文基于重型機械裝備制造企業業務領域的大數據平臺構建需求,對其進行了分析,并指出研究方向。在此基礎上,如何基于大數據平臺生態技術架構,構建重型機械裝備制造企業大數據平臺技術解決方案是本文的核心研究問題。

2 認識Hadoop 大數據平臺

2.1 Hadoop 的起源

Hadoop 是一個由Apache 基金會所開發的分布式系統基礎架構,是一個能夠對大量數據進行分布式處理的軟件框架,主要解決海量數據的存儲和分析計算問題。Hadoop 是由Doug Cutting 和Mike Cafarella 于2002 年所創建的Nutch 項目,Nutch 是一個開源Java實現的搜索引擎,目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能[1] 。

2003~ 2004 年,Google 發表了GFS(Google FileSystem,分布式文件系統)和MapReduce(開源分布式并行計算框架)2 篇論文,受此論文的啟發,2004 年,Nutch 創始人Doug Cutting 基于Google 的GFS 論文實現了分布式文件存儲系統NDFS。2005 年, DougCutting 又基于Google 的MapReduce 論文,在Nutch 搜索引擎實現了該功能,同年Hadoop 作為Lucene 的子項目Nutch 的一部分正式引入Apache 基金會。2006年2 月,Nutch 被分離出來成為一套完整獨立的軟件,命名為Hadoop,它是以Doug Cutting 兒子的毛絨玩具象命名的,Hadoop 起源于Google 的三大論文,GFS 對應演變為HDFS, Google MapReduce 對應演變為Hadoop MapReduce,Big Table 對應演變為HBase[2] 。

2.2 Hadoop 的核心組件

在大數據時代,如何解決大規模海量數據存儲和分析是關鍵,而Hadoop 項目作為大數據處理的框架,其核心功能就是分布式存儲(HDFS) 和分布式計算(MapReduce)以及資源管理調度器(YARN),下文介紹Hadoop 的核心功能。

(1)分布式文件存儲HDFS。

HDFS 源于Google 發表的一篇GFS 的論文,是描述Google 內部的一個叫做GFS 的分布式大規模文件系統,其具有強大的可伸縮性和容錯性,之后DougCutting 以GFS 的論文思想為基礎,開發出了一個新的文件系統叫HDFS,并在此基礎上形成了一個單獨的子項目,最終成為Hadoop 的核心組件之一。作為大數據生態最底層的分布式存儲文件系統,其主要解決海量數據的存儲問題,HDFS 將數據存儲在物理分散的多個存儲節點上,然后對這些節點的資源進行統一的管理與分配,并且提供統一的訪問接口,像是訪問一個普通文件系統一樣使用分布式文件系統。

(2)分布式計算MapReduce。

作為Hadoop 生態的分布式計算組件,MapReduce是一種并行編程模式,采用了分而治之的思想———先分后合,適用于大規模數據的并行處理,其工作原理是將待求解的復雜計算問題,先分解成若干規模較小的問題,然后分別求得各部分的結果,把各部分的結果進行合并, 最后得到整個問題的最終結果。

MapReduce 的特點是易于編程,具有良好的擴展性和高容錯性, 適合大規模海量數據的離線處理。

MapReduce 的核心思想是Map 和Reduce,它們分別對應map 函數和reduce 函數,這2 個函數由應用程序開發者負責具體實現,開發者僅需要編寫少量的業務邏輯代碼,不需要處理其他應用方面的各種復雜問題,如數據存儲、資源調度、容錯處理、結果收集、網絡通信等,這些問題全部由MapReduce 框架負責處理。需注意的是,并不是所有任務都適合用MapReduce,能用MapReduce 來處理的任務有一個基本要求,即待處理的數據集可以分解成許多小的數據集,而且每一個小數據集都可以完全并行地進行處理。

3 Hadoop 生態圈

3.1 Hadoop 生態圈組件

Hadoop 是一個分布式系統基礎架構,其利用分布式集群對海量數據進行高速并行運算以及存儲,開發人員在進行開發分布式程序中,無需了解分布式底層細節。Hadoop 不是一個孤立的技術,而是一套完整的生態圈,目前Hadoop 生態包含多個組件,除了核心組件HDFS 和MapReduce 及YARN 外,還包括HBase,Hive,YARN,Flume,Sqoop,Zookeeper,Ambari,Oozie,Mahout,Pig 等。

3.2 Hadoop 版本

大數據處理框架Hadoop 的版本經歷了Hadoop1.x,Hadoop2.x 以及最新Hadoop3.x 版本。首先,Hadoop11.x 版本到Hadoop12.x 版本變遷的最大變化是對MapReduce 進行了大的拆分,Hadoop1.x 主要由MapReduce(分布式計算)和HDFS(分布式存儲)構成,Hadoop2.x 在第1 代版本的基礎上演變而來,在此基礎上增加了YARN(資源調度管理系統)以及其他的一些組件,主要解決了Hadoop1.x 中MapReduce和HDFS 中存在的各種問題,如MapReduce 在擴展性和多框架方面支持不足等。在Hadoop2.x 時代增加的YARN 組件不僅支持MapReduce,還支持其他的計算框架,其具有較好的擴展性、可用性及向后兼容性等,如兼容支持后來的Spark,Flink 等框架。

Hadoop3.x 架構組件和Hadoop2.x 架構組件類似,Hadoop3. x 著重于性能優化。從Hadoop2. x 到Hadoop3.x 版本,構架組件已經沒有太大的改變,Hadoop3.x 增加了許多新特性,如支持cup 的多重運算、多重備份,而且內部的數據還支持動態平衡,提高了存儲效率,采用了糾刪碼存儲等,主要性能優化有以下幾個方面。

(1)通用方面:精簡內核、類路徑隔離、shell 腳本重構。

( 2)HDFS 存儲方面:支持EC(Erasure Code)糾刪碼、支持多NameNode。

(3)MapReduce 計算方面:任務本地化優化、內存參數自動推斷。

(4) Hadoop YARN 時間線服務方面:Hadoop3.x采用TimelineServiceV2 時間線版本服務,具有分布式寫入器體系結構和可擴展的后端存儲,并將數據的寫入與讀取分開,具有更強的可伸縮性、隊列配置、可靠性等。

4 大數據計算架構

4.1 離線計算架構

離線計算是指對海量靜態數據進行處理和分析,并產生相應的數據結果,供下一步數據應用使用的過程。其特點是處理時間要求不高,處理數據量大,處理格式多樣, 占用計算存儲資源多, 通常使用MapReduce,Spark,Spark SQL 等計算框架,以HDFS 為數據存儲,YARN 為資源調度引擎,為各種離線批處理引擎提供資源調度能力,實現了多租戶資源分配的基礎。根據數據來源到應用的流程,可以將離線處理架構分為數據源、數據采集、離線處理引擎、業務應用層[3] 。

(1) 數據源:數據源的種類包括流式數據(如Socket 數據流),文件數據庫等。

(2)數據采集系統:Flume 用于批量采集數據文件、日志文件,Sqoop 用于批量采集數據庫的數據,第三方ETL 采集工具用于數據采集加載轉換。

(3) 離線處理引擎:離線處理的引擎有Hive,Spark SQL,MapReduce,Spark。Hive 使用傳統SQL 批處理引擎,用于處理SQL 類批處理作業,在處理海量數據時表現穩定,但處理速度較慢。MapReduce 為傳統批處理引擎,用于處理非SQL 類,其廣泛應用于數據挖掘和機器學習類的批處理作業,在處理海量數據時表現穩定,但處理速度較慢。Spark SQL 為新型SQL 批處理引擎,用于處理SQL 類批處理作業,相較于MapReduce,其處理速度較快。Spark 為新型批處理引擎,用于處理非SQL 類,以及數據挖掘和機器學習類的批處理作業,處理速度較快。一般推薦優先采用Spark/ Spark SQL, 當有存量應用時可以使用MapReduce/ Hive,2 種處理引擎也可以同時使用。

4.2 實時計算架構

實時計算是指數據從生成到實時采集、實時緩存、實時計算分析、實時展示應用等處理流程,完成時間在秒級甚至毫秒級。其特點是處理速度快,且要求端到端的處理速度需要達到秒級,甚至毫秒級。實時計算架構分成數據源、數據采集、實時計算處理引擎、業務應用層。

(1)數據源:包括關系型數據庫數據、實時數據流、實時文件數據。

(2)數據采集:實時采集數據源產生的數據,并將數據緩存到分布式消息系統Kafka 中,通過實時采集工具Kafka 和第三方采集工具(如GoldenGate 數據庫)實時采集與定制化實時采集數據。

(3) 實時處理引擎:實時處理引擎包括SparkStreaming,Structured Streaming,Flink,Storm,其主要作用是對實時數據進行快速分析。Structured Streaming是基于Spark 的流處理引擎,支持秒以內的流處理分析;Flink 是新一代流處理引擎,支持毫秒級的流處理分析;Spark Streaming 以Spark Core 為基礎,提供數據的流式計算功能,支持秒以內的流處理分析;Storm 是一個事件驅動的實時流計算框架,支持毫秒級以內的流處理分析。一般根據實際需求,選擇不同的流計算引擎。

( 4)實時應用:數據應用是大數據技術和應用的目標。大數據實時計算架構為大數據的實時業務應用提供了一種通用的架構,其需要根據行業領域、公司技術積累以及業務場景等,對業務需求、產品設計、技術選型到實現方案流程等進行具體問題具體分析,并應用大數據可視化技術,對其進行深入研究,最終形成更為明確的應用標準。

5 重型裝備制造業大數據技術解決方案

通過構建統一的大數據共享和分析平臺,對重型機械裝備制造企業各類業務進行前瞻性預測及分析,為集團各層次用戶提供統一的決策分析支持,同時可以提高數據的共享與流轉、交換能力。

5.1 總體解決方案

重型機械裝備制造企業大數據平臺主要實現以下幾方面的應用。

(1)實現數據共享。通過數據平臺實現數據集中,確保企業集團各級部門均可在保證數據隱私和安全的前提下使用數據,充分發揮數據作為企業重要資產的業務價值。

(2)加強業務協作。各個業務系統中的數據在數據平臺中進行整合,建立產品、客戶等數據的企業級視圖,有效促進業務的集成和協作,并為企業級分析、銷售提供基礎。

(3)促進業務及管理創新。企業集團營銷人員可以基于明細、可信的數據,進行多維分析和數據挖掘,為企業業務及管理創新創造有利條件。

(4)改善數據質量。從中長期看,數據倉庫對企業分散在各個業務系統中的數據進行整合、清洗,有助于改善企業整體數據質量,提高數據的實用性。

(5)提升企業數字化、智能化建設效率。通過大數據平臺對數據進行集中,為管理分析、挖掘預測類等系統提供一致的數據基礎,改變現有系統數據來源多、數據處理復雜的現狀,實現應用系統建設模式的轉變,提升相關IT 系統的建設和運行效率。

本文提出的重型機械裝備制造企業大數據平臺架構是基于信創龍頭企業“中國電子”的產品線。其主要產品有大數據基礎平臺、數據中臺,如圖1 所示。

5.2 大數據基礎平臺技術架構

將中國電子的大數據基礎平臺產品作為解決方案,該公司產品“大數據基礎平臺”兼容Hadoop 等主流開源存儲與計算引擎、兼容市面上常見的商用大數據基礎平臺,最大化兼容目標企業已有的大數據平臺體系,充分利舊、保護投資[4] 。大數據基礎平臺技術架構如圖2 所示。

5.3 數據中臺技術架構

在大數據平臺總體架構中,作為技術解決方案架構中的核心產品,數據中臺部署于IAAS 層、PAAS 層之上和應用體系之下,處于企業的數字化轉型總體架構中的底座位置。數據中臺是大型企業總體IT 架構中的核心,該產品是構建數據資產中心的一站式數據技術工具,是支撐各類數據應用建設的基礎服務體系,將長期承載著大型企業的數據資產統一運營,提供螺旋向上的數據治理與數據價值發揮的能力。數據中臺技術架構如圖3 所示。

6 結束語

本文從研究背景、問題的提出,再到具體技術架構的研究,對Hadoop 大數據平臺及生態圈、Spark 技術架構、大數據離線計算架構、實時計算架構進行闡述,并提出了重型機械裝備制造企業以信創龍頭企業的產品線為基礎的大數據平臺技術解決方案,旨在為重型機械裝備制造業大數據平臺的構建提供參考。

參考文獻:

[1] 盧瀅.大數據技術在智慧工程中的應用[J].電子技術與軟件工程,2022(2):208?211.

[2] 黃碩.省級廣電網絡大數據平臺設計與建設[J].廣播與電視技術,2022,49(6):81?85.

[3] 凌諾娟.云農場智慧服務大數據平臺研究與實現[D].合肥:安徽農業大學,2022.

[4] 中國電子技術標準化研究院.大數據平臺技術白皮書[R].北京:中國電子系統技術有限公司,2021.

作者簡介:汪憶(1981—),碩士,高級工程師,研究方向:大數據技術、人工智能技術、機械裝備制造業信息化、高等職業教育。

猜你喜歡
大數據平臺
基于大數據平臺的電網全業務數據分析域研究
基于大數據的農產品質量安全追溯平臺建設研究
全國耕地質量大數據平臺設計
基于大數據平臺的日志分析預警技術研究
基于大數據平臺的高校思想政治教育
Hadoop性能測試自動化研究
基于大數據的智能停車場管理系統設計
基于大數據分析的智慧倉儲運營支撐平臺設計
襪業行業大數據平臺的應用研究
高校思想政治教育大數據平臺運行機制探析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合