?

基于重型機械裝備制造企業的大數據分析及可視化研究

2023-08-09 23:21汪憶鐘世成王敏
計算機應用文摘 2023年15期
關鍵詞:大數據分析

汪憶 鐘世成 王敏

摘 要:文章基于重型機械裝備制造企業的大數據分析及可視化管理駕駛艙平臺的建設背景,提出了大數據管理駕駛艙的建設需求,深入闡述了大數據分析及挖掘的概念、分析流程及分析工具,以及構建管理駕駛系統的可視化方法、常用圖表及工具,得出了基于重型機械裝備制造企業構建的管理駕駛艙系統平臺形成的研究結果,旨在為相關的企業大數據分析及可視化管理駕駛艙系統平臺的構建提供借鑒

關鍵詞:機械裝備制造企業;大數據分析;大數據可視化;管理駕駛艙系統

中圖法分迷號:TP311 文獻標識碼:A

1 引言

1.1 研究背景

重型機械裝備制造業是我國國民經濟的主體,目前,重型機械裝備制造企業面臨數字化轉型的諸多難題和挑戰。通過簡單、直觀、多維的大數據分析結果幫助企業洞察經營狀況并提升管理決策顯得十分必要。在此背景下,本文通過對機械裝備制造業大數據應用進行深入研究并實踐,旨在實現從大數據分析需求到大數據系統分析、設計建模,以及從數據采集、數據加工、數據分析到數據可視化圖形展示的全過程分析及可視化管理。

1.2 研究問題的提出

基于重型機械裝備制造企業大數據管理駕駛系統的構建需求,本文提出研究問題,并對大數據分析及可視化方法進行深入研究。如何通過大數分析及可視化方法、工具及大數據相關技術構建開發管理駕駛艙系統是本文的核心研究問題。

2 大數據分析與挖掘

2.1 大數據分析

(1)大數據分析的概念。

大數據是傳統數據管理工具無法存儲或處理的大型、復雜和海量數據的集合。大數據分析是指分析大數據的相關性、隱藏模式、市場趨勢和客戶偏好等信息,以幫助做出基于數據決策的復雜過程。大數據分析通過多種不同的方式來幫助不同行業的企業和組織進行風險管理、產品開發和創新、制定戰略決策、改善用戶體驗等。從業務的角度來說,大數據分析分為描述性分析、診斷性分析、預測性分析、規范性分析4 種類型。

(2)大數據分析的流程。

大數據分析流程往往包括收集數據、轉換數據和對轉換結果執行數據分析,大數據專業人員需要經歷流程中的多個步驟。主要的5 個關鍵步驟如下。

①識別數據源并收集數據。在最初的步驟中,數據專業人員需要根據分析目標來選擇可能包含原始形式的有用數據的數據源,盡可能從廣泛的平臺中選擇數據源來收集數據,以提高數據分析的準確性。

②數據預處理。數據預處理對來自數據源的所有數據進行多方面的預處理。

③數據轉換。數據轉換步驟的主要目的是在運行分析算法之前將所有數據轉換為可用的格式。

④數據分析和挖掘。這一階段,利用數據分析知識對上一步輸入的數據進行詳細分析,并利用數據挖掘技術在收集的海量數據中發現隱藏和重要的模式。

⑤數據可視化??墒褂弥T如Power BI,Tableau,SmartBI 等商業智能工具或者開源的Python 工具庫對數據分析的結果進行可視化呈現,并為不同級別的業務團隊創建豐富的分析報告。

(3)大數據的分析方法。

很多學者和技術人員掌握了很多數據分析工具和技能,但依然做不好數據分析。遇到業務問題時,他們常常覺得無從下手。其實,掌握技能和工具只是第一步,掌握好大數據分析方法還必須有數據分析思維。數據思維具有框架性引導作用,能夠確認分析角度、搭配分析方法、選擇指標體系以及得出分析結論。常見的7 種數據分析思維包括對比法、象限法、漏斗法、二八定律、指數法、假設法及多維分析法。

做好大數據分析常常會用到統計分析方法,常見的統計分析方法有14 種,分別是描述統計分析法、駕駛檢驗分析法、信度分析法、列聯表分析法、相關分析法、方差分析法、回歸分析法、聚類分析法、主成分分析法、因子分析法、時間序列分析法、生存分析法、典型相關分析法、ROC 曲線分析法。在重型機械裝備制造企業的大數分析過程中,可以選擇以上大數據分析方法進行大數據分析。

(4)大數據分析工具。

開發人員根據大數據分析工具的功能和特性,以及開發環境的支持來確定和選擇最合適的大數據分析解決方案??梢詮牧餍械膸讉€大數據分析并行編程模型(MapReduce、工作流、批量同步并行和類似SQL)的角度來了解并選擇對應的大數據分析工具。

①基于MapReduce 編程模型的分析工具。MapReduce 是一種受函數式編程啟發的編程模型。它基于map 和reduce 函數并行執行,用于設計大規模數據密集型應用程序。MapReduce 模型專為數據密集型應用而設計,如社交媒體分析、圖像檢索、科學模擬和網站爬取。在此類應用程序中,其復雜性主要與要處理的大量數據有關,MapReduce 允許充分利用數據的并行性,從而在分布式環境中實現高效執行。此外,它可以適應多種計算環境,包括多核、眾核和多集群系統以及動態云平臺和高性能計算系統。最常用的基于MapReduce 編程模型的開源框架是Apache Hadoop?;冢龋幔洌铮铮?平臺的大數據分析可以幫助組織更高效地運營、發現新機會并獲得更多的競爭優勢。

②基于工作流的分析工具。工作流是一種定義明確且可能重復的模式,旨在實現數據的某種轉換,可用于對復雜的數據分析場景進行建模,如分布式數據挖掘、機器學習和流分析應用程序。工作流任務可以按照不同的模式組合在一起,這使得輸入、輸出任務和依賴于其他任務的各種應用程序的高效建模與執行成為可能。流處理通??梢岳斫鉃閷\動中的連續數據流進行實時計算和處理。

Apache Spark 是基于工作流的最流行的框架之一,用于機器學習、SQL 分析和圖形計算。ApacheStorm 是一個用于實時流處理的開源分布式系統,能夠處理大規?;A設施中的海量無界數據,具有高度可擴展性、容錯性,并確保高速數據處理(每個節點每秒處理數百萬個元組)和低延遲響應時間。

③基于批量同步并行模型的分析工具。批量同步并行是一種并行計算模型,是在圖和矩陣、深度學習、機器學習和網絡算法上執行海量計算任務最常用的模型之一。Apache Hama 是一個基于批量同步并行的開源框架,旨在執行小型基礎設施中涉及基于矩陣和圖的計算的復雜任務,主要用于開發利用批量同步并行模型進行高度迭代的圖形處理應用程序。

Apache Giraph 也可以為開發高度可擴展的應用程序提供迭代圖計算,其將Hadoop 作為資源管理器,主要被學術界和小型工業界用來在小型基礎設施中運行圖形處理應用程序。

④類似SQL 的分析工具。類SQL 系統試圖將Hadoop 的有效性和查詢能力與類SQL 語言的易用性結合起來,以便開發簡單高效的數據分析應用程序。Apache Hive 是一種建立在Hadoop 上的數據倉庫軟件,用于讀取、寫入和管理大規?;A架構中的數據。它允許通過聲明性的類似SQL 的語言,即Hive 查詢語言(HiveQL),對大量數據進行可擴展和容錯的管理。在Hive 中,每個數據操作查詢都會自動轉換為MapReduce 作業,從而無需編寫復雜的MapReduce 程序即可輕松處理大數據。

2.2 大數據挖掘

數據挖掘是在大型數據集中提取和發現模式的過程,涉及機器學習、統計和數據庫系統交叉的方法,是知識發現的分析步驟。有效的數據挖掘有助于企業規劃業務戰略和管理運營等,包括客戶管理、供應鏈管理、欺詐檢測、風險管理、網絡安全規劃和許多其他關鍵業務用例。它還在醫療保健、政府、科學研究、數學、體育等領域發揮著重要作用。一般來說,數據挖掘的過程包含預處理、數據挖掘、結果驗證。而常用的跨行業數據挖掘標準流程定義了數據挖掘為業務理解、數據理解、數據準備、建模、評估、部署6 個階段。

SPSS 是最流行的統計軟件平臺。該軟件的高級功能提供了廣泛的機器學習算法庫、統計分析(描述性、回歸、聚類等)、文本分析、與大數據集成等。此外,SPPS 允許用戶通過專門的擴展并使用Python 和R 改進他們的SPSS 語法。

Pandas 是用于數據分析的庫之一,它包含高級數據結構和以簡單方式操作數據的工具,能夠對多維和單維數據進行索引、檢索、拆分、連接、重組。雖然Pandas 庫提供了很多分析功能,但它依賴于Python 生態系統中用于數據處理的庫,如NumPy,SciPy,Scikit?Learn,Matplotlib,它們配合使用并從大型數據集中得出結論。

NumPy 是一個用于數值計算和科學計算的Python 庫。NumPy 提供了許多功能,可以在Python中對n 維數組和矩陣執行操作。它有助于處理存儲相同數據類型值的數組,并提高對數組(及其向量化)執行數學運算的效率[1~2] 。

3 大數據可視化

3.1 可視化的方法及圖表

大數據可視化是將信息轉換為可視化的實踐,使人腦更容易理解數據并從中獲取見解,更容易識別大型數據集中的模式、趨勢和異常值。該術語通常與其他術語互換使用,包括信息圖形、信息可視化和統計圖形。

大數據可視化往往超越了普通可視化中使用的典型技術,增加了更復雜或者組合的表示形式。大數據可視化需要強大的計算機系統來收集原始數據,對其進行處理并將其轉化為人們可以快速得出見解的圖形表示。這是因為圖像通常比文字更快、更有效地傳達正在發生的事情。大數據可視化技術利用了這一事實,它們以圖表或圖形來呈現數據,將數據轉化為圖片。這使得決策者可以一目了然地獲得大量數據所包含的信息。

若要成功有效地展示數據,必須根據可視化項目的情況和對受眾的了解來選擇正確的圖表。例如,如果要展示一組時間段內的變化,其中包含少量見解,那么折線圖是一種有效的可視化方式。此外,線條使多個系列繪制在一起變得簡單。

顏色將對可視化模型的整體成功產生顯著影響,應在整個數據可視化中保持配色方案的一致性,使用清晰的對比來區分元素。同時,在構建有效的圖形時,可以適當地添加文本讓圖形更易于理解。在數據可視化中最常見的文本元素通常是標題、標簽、圖例或工具提示。標題在圖形或圖表中占據頂部位置,它告訴用戶在該視覺對象中能夠找到什么信息。當涉及字幕時,應始終避免冗長,保持簡短明了。描述太長的標簽會擁擠視覺并使其難以理解。圖例是圖表的側面部分,它顯示并提供簡要說明,以幫助用戶理解所顯示的數據??梢栽黾涌梢暬ぞ咛崾?,一旦用戶將鼠標懸停在數據點上,就會顯示額外的文本。大數據常用的可視化圖表包括餅圖、條形圖、折線圖、直方圖、散點圖、氣泡圖、熱力圖、雷達圖、面積圖、玫瑰圖、甘特圖、詞云圖、?;鶊D、樹形圖、漏斗圖,根據可視化需要及豐富的圖標顯示特點,選擇合適的一種或多種圖形對分析主題進行可視化展示。

3.2 可視化的工具

(1)Excel。

Excel 是人們最常用的數據組織和處理工具,它提供了大量的內置圖表,人們可以很好地利用這些圖表來進行數據可視化。

(2)BI 工具。

商業智能(BI)工具是專有或開源應用軟件,用于收集、處理、分析、排序、過濾和報告來自內部和外部系統的大量數據,目的是將原始數據轉換為有用的信息商業。常見BI 工具有tableau,Power BI,SmartBI等。Smartbi 是國產BI 工具之一,提供數據處理、數據分析、數據挖掘、數據可視化等功能,在金融、制造、零售、地產、教育等行業獲得超4 000 家行業頭部客戶認可,在Smartbi 的官網可以選擇申請試用或選擇Demo體驗。

( 3)大數據可視化開源庫。

Matplotlib 是一個在Python 中創建靜態、動畫和交互式可視化的綜合庫。Matplotlib 可用于Python 腳本、Python/ IPythonshell、Web 應用程序服務器和各種圖形用戶界面工具包。PyECharts 是一個Python 第三方庫,用于開發生成可視化圖表。Pyecharts 具有簡單的API 設計, 支持主流Notebook 環境, JupyterNotebook 和Jupyter Lab,易于集成到Flask 和Django等主流Web 框架中。

4 重型裝備制造業大數據分析及可視化

4.1 重型機械裝備制造企業管理駕駛艙

本文通過深入研究相關大數據分析與可視化技術,按照面向對象的軟件開發方法,開發了重型機械裝備制造企業的管理駕駛艙系統平臺。通過管理駕駛艙系統可視化大屏,企業高管及管理者可以快速查看訂貨合同金額計劃完成率、報產產值完成率、銷售收入完成率、貨款回收完成率、合同金額、銷售金額(銷售收入)以及貨款稅收金額指標;還能查閱地理緯的省份、城市合同簽訂金額可視化結果;年度、產品分類的合同金額的?;鶊D;報產金額、報產重量、產品分類的詞云圖;庫存柱狀圖以及責任制工資指標可視化圖表,具體如圖1 所示。

4.2 管理駕駛艙系統研究結果

整個管理駕駛艙系統功能分為8 個功能模塊,包括管理駕駛艙總倉、銷售指標、生產指標、采購指標、協作指標、財務指標、人力資源指標及系統權限管理。其中,管理駕駛艙總倉展示企業核心指標(KPI);銷售指標、生產指標、采購指標、協作指標、財務指標、人力資源指標6 個功能模塊分別從6 個業務方面進行指標數據查詢、透視分析及儀表盤可視化展示;系統權限管理功能模塊實現了人員、角色、權限及用戶密碼修改管理等系統管理。

管理駕駛艙系統Web 應用端采用Visual Studio2015,開發語言為C#和JS,數據庫環境為MicrosoftSQL Server 2012。ETL 及大數據分析可視化工具采用SmartBI 工具;大數據底層采用開源hadoop 大數據平臺。

5 結束語

本文從研究背景、研究問題的提出到具體大數據分析、挖掘及可視化的研究,闡述了大數據分析挖掘方法及工具、可視化的圖標、可視化的工具,通過理論研究與實證研究,開發了基于重型機械裝備制造業的大數據分析及可視化平臺?管理駕駛系統,形成了本論題的研究結果。通過本論題的研究,為重型機械裝備制造業管理駕駛系統的構建提供了參考思路。

參考文獻:

[1] 王旭.資源管理駕駛艙的設計與實現[J].鐵路計算機應用,2023,32(1):46?51.

[2] 任政,祁建,陸晨亮.基于大數據分析可視化平臺關鍵技術研究及供電服務指揮應用[J].微型電腦應用,2022,38(4):198?201.

作者簡介:

汪憶(1981—),碩士,副教授,高級工程師,研究方向:大數據技術、人工智能技術、機械裝備制造業信息化、高等職業教育。

猜你喜歡
大數據分析
基于大數據分析的低壓臺區降損系統研究及應用
大數據分析對提高教學管理質量的作用
基于大數據分析的電力通信設備檢修影響業務自動分析平臺研究與應用
面向大數據遠程開放實驗平臺構建研究
面向大數據分析的信息管理實踐教學體系構建
傳媒變局中的人口電視欄目困境與創新
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合