?

基于企業畫像的水泥產業大數據平臺設計與實現

2023-06-21 09:28宋登科
現代信息科技 2023年9期
關鍵詞:大數據平臺

摘? 要:基于水泥產業發展需求、行業特點和發展中產生的海量數據,設計并實現了水泥產業大數據平臺。從數據架構、應用架構和物理架構三個方面構建平臺的總體架構,并結合機器學習相關算法對企業進行畫像,多維度挖掘企業信息。該平臺可提供產業大數據可視化、產業地圖、企業全息畫像和政策精準匹配四大核心功能,為水泥產業信息化、智能化轉型升級提供極富價值的參考,是大數據建設的重要應用示范。

關鍵詞:水泥產業;大數據平臺;企業全息畫像;政策精準匹配

中圖分類號:TP311 文獻標識碼:A? 文章編號:2096-4706(2023)09-0111-04

Abstract: The cement industry big data platform is designed and implemented based on the development demand, industry characteristics and massive data generated in the development of the cement industry. Build the overall architecture of the platform from three aspects of data architecture, application architecture and physical architecture, and combine machine learning related algorithms to visualize enterprises and mine enterprise information in multiple dimensions. The platform can provide four core functions of industrial big data visualization, industrial map, enterprise hologram and policy precise matching, which provides valuable reference for the informatization and intelligent transformation and upgrading of the cement industry, and is an important application demonstration of big data construction.

Keywords: cement industry; big data platform; enterprise hologram; policy precise matching

0? 引? 言

黨的二十大報告中強調要建設現代化產業體系,推動制造業高端化、智能化、綠色化發展。在推動我國水泥工業加速轉型升級方面,互聯網、大數據、云計算、人工智能等先進技術是重要的技術支撐。大數據平臺的相關建設案例有華夏幸福產業大數據平臺、上海市產業地圖、蘇州市“政策通”、合肥市廬陽區產業政策申報平臺等,滿足不同產業的業務需求。本文利用安徽海螺水泥產業跨平臺、跨行業、跨地區的多源異構數據[1],結合機器學習算法挖掘產業數據,以企業畫像[2]為核心,設計并實現了具有多種核心功能的水泥產業大數據平臺,實現水泥產業管理網絡化和平臺化,為水泥產業的未來發展提質增效。

1? 平臺功能及目標

水泥制成的砂漿或混凝土是國民經濟發展的重要基礎原料,廣泛應用于土木建筑、交通、水利、電力、化工、國防等工程建設。在海螺水泥的帶動和引領下,水泥產業完成了技術結構調整,處于創新提升超越引領階段。此階段水泥產業的目標是淘汰落后設備,推動供給側改革,進一步向信息化和智能化轉型升級。水泥產業具有自身特點,其銷售情況受季節變化、國家政策的影響明顯,因此相關人員在制定水泥生產計劃時要分析市場需求,同時及時研究國家經濟政策的走向,避免盲目決策[3]。市場手段與行政手段相互配合是水泥行業供給側改革的核心路徑,通過構建水泥產業大數據平臺,加速釋放數據潛力,作為連接宏觀決策和微觀數據的工具在水泥行業上游原料和下游需求產業鏈中發揮重要作用。本文設計的水泥產業大數據平臺主要實現了以下四個核心功能:

1)通過集中整合和管理如產業規劃、區域布局、水泥生產園區、水泥項目等產業相關數據,全方位構建水泥產業數據的指標體系,結合常用的分析模型和方法,進行統計圖表可視化表達水泥產業數據相關指標。

2)基于水泥企業所在地區的二維地圖,將水泥企業、生產園區、水泥項目等主體的分布情況予以呈現,通過點擊地圖上企業、園區等主體的符號化圖標,可跳轉到該主體的詳情查看頁面。

3)對所獲取的海量水泥企業數據進行分析處理,建立企業標簽體系,深度挖掘企業和個人、企業、項目、產業間的關系鏈路,建立關系圖譜,結合業務需求建立企業的全息畫像,用戶可對企業不同維度信息進行查詢。

4)梳理整合政府發布政策和企業需求,運用機器學習算法對海螺旗下300多家子公司以及上下游產業鏈相關企業和國家經濟政策進行匹配,智能化將政策推送給企業,同時企業也能在政策查詢模塊獲取匹配的政策推薦,實現政策精準匹配。

建立起這樣一個集匯總、整合、展示和分析于一體的水泥產業大數據平臺,一方面可充分利用產業大數據資源,充分挖掘數據價值并進行信息化展示;另一方面可通過機器學習相關算法滿足水泥企業的相關需求,為產業智能化發展提供助力。

2? 平臺架構

水泥產業大數據平臺總體架構主要包括三部分,分別是平臺服務層(IaaS、PaaS)、數據服務層(DaaS)和應用服務層(SaaS),如圖1所示。

平臺服務層包括IaaS平臺管理和PaaS平臺管理兩個部分。IaaS平臺管理主要提供基于云服務的計算服務、存儲服務、網絡服務。PaaS平臺管理主要進行數據的獲取和處理,并提供通用中間件服務及大數據中間件服務,通用中間件服務包括MySql、Redis、數據可視化工具,大數據中間件服務的實現主要基于Hadoop分布式系統框架。數據服務層主要是應用機器學習和人工智能技術,實現水泥產業指標統計分析、企業和政策標簽構建等功能。應用服務層在數據服務層的基礎上,圍繞企業畫像實現產業大數據可視化、產業地圖、企業全息畫像和政策精準匹配四大核心功能。

2.1? 數據架構

數據架構負責組織獲取到的大量數據,以滿足應用系統不同的數據需求,是建立靈活有效大數據平臺的重要基礎。水泥產業大數據平臺建設九大數據區,分別為:緩沖區、貼源區、基礎區、標簽區、主題區、應用區、歷史數據備份區、非結構化區以及索引區,如圖2所示。

2.2? 應用架構

應用架構主要分為四個部分,分別是數據源、數據倉庫、數據應用和門戶,如圖3所示。

數據源負責數據的接入,采集政務和水泥數據;數據倉庫負責整合結構化、半結構化和非結構化數據,統一格式收入產業主題庫;數據應用針對水泥企業需求實現相應功能;門戶負責應用和信息的集成展示,是產業大數據平臺的用戶入口。

2.3? 物理架構

物理架構實現內網和外網分開,內外網之間通過數據交換平臺交換數據。內網部署大數據集群用于數據的計算和分析,相關數據庫用于結構化和非結構化數據的存儲;外網部署虛擬機用于Web應用服務、業務數據庫和前置機數據庫存儲服務,其具體結構如圖4所示。

3? 關鍵技術

水泥產業大數據平臺設計的功能,以企業畫像為技術核心,采用機器學習領域相關算法得以實現,主要分為標簽生成技術、協同過濾技術和地圖構建技術。

3.1? 標簽生成技術

水泥企業數據具有來源不同、類型不同的特點。類別類型的數據,直接提取類別數據作為企業標簽,表示企業的基本信息。原因描述類的數據,利用數據處理工具Pandas、Numpy等進行統計歸類分析生成標簽。對于企業很多無法通過簡單統計分析獲取的隱含特征,采用機器學習相關算法建立模型獲取標簽[4],主要采用多項式樸素貝葉斯(MNB)分類器和支持向量機(SVM)的方式,對企業數據文本進行分類從而實現對企業隱含特征的挖掘。

多項式分布公式為:

其中,P(X = xi | Y=c)表示c類別下第i個屬性上取值為xi的條件? 概率,是c類別下第i個屬性上取值為xi的樣本數,|Dc|表示c類別的樣本數,Ni表示第i個屬性可能的取值數,λ表示平滑系數,為防止訓練數據中出現過的詞未包含在測試集中導致0概率的出現,取λ=1稱為拉普拉斯平滑。技術上通過調整sklearn中的MultinomialNB參數實現。

標準的硬邊界線性SVM在約束條件設為樣本點到決策邊界的距離大于等于1的情況下,轉化為一個等價的二次凸優化問題進行求解:

對企業未顯式說明的特征視為目標進行分類,挖掘出企業的隱含特征并為其加上標簽。技術上通過調整sklearn中的LinearSVC參數實現。

3.2? 協同過濾技術

通過標簽生成構建企業全息畫像之后,采用基于鄰域的算法來構建推薦系統[5],實現政策的精準匹配。根據企業和政策特征,計算企業和政策匹配度,以此構建企業-政策矩陣和政策-企業矩陣,主要采用兩個基于鄰域的算法。

3.2.1? 基于企業的協同過濾推薦(User-Based)

給定一個企業,尋找未被該企業瀏覽的政策(政策-企業矩陣中的值為0),計算與該企業相似的企業偏好政策的分數,并按照從高到低的順序進行排序,返回前N個政策進行推薦。

3.2.2? 基于政策的協同過濾推薦(Item-Based)

給定一個政策,尋找未瀏覽該政策的企業(企業-政策矩陣中的值為0),計算與該政策相似的政策被企業偏好的分數,并按照從高到低的順序進行排序,返回前N個企業進行推薦。企業相似度和政策相似度采用余弦相似度公式來表示:

結果的值代表了企業和企業、政策和政策向量之間夾角的大小,夾角越小,余弦相似度越大,說明兩者之間的相似度越大。

針對上述兩個算法泛化能力弱和具有頭部效應的問題,采用基于模型的協同過濾推薦(Model-Based)進行優化,這里采用基于矩陣分解的潛在語義模型。潛在語義模型通過隱含特征聯系企業匹配的政策,基于企業特征找出潛在政策主題,然后對政策進行自動聚類,劃分給對應企業,通過分解共現矩陣得到含有隱向量的企業矩陣Q和政策矩陣P,這樣就能得到企業u對政策i的偏好分數:

按照從高到低的順序排序之后將前N個未推薦給企業的政策推薦給該企業。

3.3? 地圖構建技術

水泥產業地圖功能模塊基于主流的GIS軟件進行地圖符號化,通過GIS軟件平臺提供各類空間數據服務,將所獲取的高精度矢量數據通過空間數據庫引擎導入關系型數據庫。利用圖像解譯方法將需要提取的地物(如水泥企業、生產園區、水泥項目等主體)進行實體提取,構成高精度高完整度的矢量格式數據,基于這些數據,利用ArcGIS軟件[6]進行數字線畫圖(Digital Line Graphic, DLG)生成,將這些實體在地圖上進行符號化渲染。

同時采用Apriori算法挖掘主體之間的關聯規則,在地圖上用戶點擊該主體能獲得其他相關主體的信息。Apriori算法首先獲取主體X和Y之間的支持度,支持度表示主體X和Y同時出現在數據集中的概率:

Support(X→Y )=P(X ∩Y )=P(XY )

在計算主體X出現的情況下,主體Y出現的概率稱為置信度:

Confidence(X→Y )=P(Y | X )

在滿足最小支持度的組合中,生成滿足最小置信度的關聯規則,提取出相關主體作為目標主體的關聯主體進行展示。

4? 平臺展示

在地圖上點擊相關主體的符號化圖標,可以進入該主體的詳細信息界面,展示主體的特征信息。如圖5所示,點擊進入安徽海螺水泥某廠信息頁,展示水泥生產企業的特征信息(主要是水泥生產的能效能耗)。實時呈現企業特征信息,一旦出現不合理數據時能夠及時發現并采取相應對策,提升管理效率。

同時點擊企業能夠進入企業畫像頁面,如圖6所示。通過直接獲取的和計算生成的相關標簽,全方位展示企業信息,如基本信息、司法信息、經營風險、知識產權等。同時展示通過關聯規則挖掘出的與企業關聯度較高的關聯企業,以及運營評價相關模型,為未來發展提供決策參考。

5? 結? 論

為持續推進水泥產業信息化、智能化建設的步伐,進一步推進水泥行業創新提升超越引領發展,基于安徽海螺水泥和互聯網相關數據,設計并實現一種水泥產業大數據平臺,結合現有的主流機器學習技術,以企業畫像為核心,實現了產業大數據可視化、產業地圖、企業全息畫像、政策精準匹配四大核心功能模塊,同步升級當前政策大數據庫、企業和水泥產業大數據庫以及配套業務功能及流程,取得了良好的經濟效益和社會效益,為以物質生產、物質服務為主的經濟發展模式向以信息生產、信息服務為主的經濟發展模式轉變提供重要支持。

參考文獻:

[1] 林瑀,陳日成,金濤.面向復雜信息系統的多源異構數據融合技術 [J].中國測試,2020,46(7):1-7+23.

[2] 陳鋼,佘祥榮,秦加奇,等.面向精準政務服務的自然人全息畫像 [J].電子技術與軟件工程,2021(15):209-210.

[3] 張媛媛.信息化建設在水泥行業中的應用與研究 [J].四川水泥,2018(6):2.

[4] ACCENTS J.Feature-driven label generation for congestion detection in smart cities under big data [EB/OL].[2022-11-10].https://www.accentsjournals.org/paperInfo.php?journalPaperId=1390.

[5] 褚宏林.協同過濾推薦算法研究分析 [J].福建電腦,2021,37(6):51-54.

[6] 齊志飛,姚奕.面向ArcGIS個人地理數據庫的矢量幾何數據解碼 [J].電腦編程技巧與維護,2022(10):92-96.

作者簡介:宋登科(1980—),男,漢族,湖南株洲人,工程師,碩士,研究方向:大數據與人工智能。

猜你喜歡
大數據平臺
基于大數據平臺的電網全業務數據分析域研究
基于大數據的農產品質量安全追溯平臺建設研究
全國耕地質量大數據平臺設計
基于大數據平臺的日志分析預警技術研究
基于大數據平臺的高校思想政治教育
Hadoop性能測試自動化研究
基于大數據的智能停車場管理系統設計
基于大數據分析的智慧倉儲運營支撐平臺設計
襪業行業大數據平臺的應用研究
高校思想政治教育大數據平臺運行機制探析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合