?

自然語言處理（NLP）技術在大型企業采購物料主數據治理實踐中的應用研究

2024-04-23 12:24趙瑋侯方東吳昊馮青侯亞銘劉衍喜王旭

供應鏈管理 2024年3期

關鍵詞：標準化

趙瑋　侯方東　吳昊　馮青　侯亞銘　劉衍喜　王旭

關鍵詞：NLP；主數據管理；標準化

中圖分類號：F252 文獻標識碼：A 文章編號：2096-7934（2024）03-0027-13

一、研究背景

隨著經濟全球化和信息技術的發展，企業為了提高運營效率和市場競爭力，紛紛建設信息化管理系統。在運營過程中，信息化系統中的數據快速增長，企業“大數據”漸漸成為企業資產的一部分。利用和挖掘數據資產價值，能讓企業在激烈的市場競爭中及時調整業務發展方向、優化資源配置，進一步提高市場競爭力?！吨泄仓醒雵鴦赵宏P于構建數據基礎制度更好發揮數據要素作用的意見》指出，數據作為新型生產要素，是數字化、網絡化、智能化的基礎，已快速融入生產、分配、流通、消費和社會服務管理等各環節，深刻改變著生產方式、生活方式和社會治理方式。

對于大型企業來說，物料采購是生產經營的關鍵環節之一，涉及物料分類、編碼、描述及屬性等方面，實現采購物料主數據的標準化是采購供應鏈數字化轉型的基礎。大型企業存在多個應用系統，相同的信息以不同的采購物料主數據形式存在于不同的系統中，各應用系統間容易形成“信息孤島”。一方面，隨著企業并購及企業間合作導致企業業務范圍擴大，跨組織信息資源共享需求及對采購物料主數據進行協調和集中存儲的需求增加。另一方面，受企業內部各單元信息化水平參差不齊等因素影響，采購物料管理長期面臨主數據顆粒度不統一、物料數據標準化建設投入大周期長等問題，亟待治理以提升數據資產質量。

作為黨和國家在農糧領域可信賴的中央企業之一，某集團業務范圍聚焦糧、油、糖、棉、肉、乳等品類，同時涉及金融、地產等領域，形成了以核心產品為主線的若干家專業化公司。近年來，某集團高度重視數智化建設，致力于提升信息技術創新能力和數字化管控水平，當前正在穩步實施《“十四五”信息化發展規劃》。作為數據治理領域一項基礎性、長期性任務，統一旗下專業化公司采購物料主數據，形成一套適合某集團特色物料標準化數據，成為亟需解決的問題。在物料標準化過程中，某集團將自然語言處理技術內嵌至物料分類、物料規范描述、物料管理等環節，能夠減少人員投入50%、建設周期縮短65%，整體人天投入降低77%。

通過探討大型企業采購物料標準化的實踐路徑及其創新應用，主要實現兩個目標：一是探索嘗試人工智能自然語言處理技術在數據治理過程中可能的應用場景，二是重點關注數據采集、清洗、整合和共識建立等環節，從定性和定量兩個維度分析其效益提升的路徑。

二、文獻綜述

（一）物料主數據治理

作為數據資產的一部分，主數據是指企業經營中的“基礎數據”或者“公用數據”，是用來定義業務對象、具有持續性、相對靜態、非交易類的數據，并且在企業整個價值鏈上被重復使用、共享于多個業務流程的具有高價值的數據。常見的主數據有物料、供應商、客戶、銀行、會計科目等。物料主數據是主數據的重要組成之一，包括物料的基本信息及業務相關的基本信息。其中，物料主數據相關的企業業務有：采購、銷售、供應鏈管理、物流管理等。一致的、完整的、唯一的物料主數據能給企業帶來價值，例如，對于采購部門，通過對物料主數據的整合，使全集團采購業務統一化、資源調度規范化，從而降低采購成本、避免違規采購；再如，完善的、精確的物料主數據保證了商務智能階段決策分析結果的正確性，從而使高層決策的結果真正為企業帶來預期價值。因此，主數據是數據治理的基礎和重點，而物料主數據又是重中之重，治理不當會導致數據的不一致性和錯誤，進而影響企業的高效運營和正確決策。當前，已有的研究已經提出了各種方法和工具來解決物料主數據治理的問題，但對于大型企業而言，針對性和實用性還不夠強，面臨的挑戰仍然嚴峻。

目前，國內外學術界對主數據管理的研究點包括主數據管理方案架構、基于主數據的信息集成技術、主數據存儲結構、主數據的分析建模方法等。國外學術界的研究主要有：康奈爾（CornelLoser）將主數據管理系統分為三類：操作型（MasterDataManagement，以下簡稱“MDM”）、分析型MDM和企業級MDM；亞歷克斯（AlexBerson）對主數據管理方案的架構決策、與客戶數據集成關系及實施技術進行了論述；加馬（Gamma）和蒂奇（Teachey）分別指出MDM解決方案涉及的技術流程為：源數據剖析、數據標準化、匹配、數據合并以及同步。

國內對主數據的研究主要集中在以下幾個方面：主數據識別及建模、基于主數據的信息集成及其相關問題。張進德研究了企業主數據的分析建模和表達建模，主數據分析建模包括以業務梳理為核心的主數據識別和主數據整合，主數據表達建模從數據分類、數據描述和數據交換三方面進行了闡述。李媛闡述了基于主數據管理的企業信息集成方法；錢鵬程討論了主數據管理系統與業務系統的集成方法以及異構數據模式映射算法。張煒研究了基于本體的主數據管理方法：利用本體技術進行主數據的語義識別、整合以及與異構系統之間的訪問。張義強闡述了物料主數據標準化在企業資源規劃系統中的作用，列舉了中國中車通過實施物料主數據標準化方案減少物料“一物多碼”現象、提高企業物料管理水平的典型案例。畢子健和鄭文分別研究了物料主數據標準化的內容，包括物料主數據分類方法、編碼原則及方法，同時對管理組織作了說明。

大數據時代，企業信息資源整合的關鍵是依托企業主數據管理，強化數據標準化建設，實現信息資源模式的統一。主數據管理平臺使得企業能夠集中管理數據，將分散在不同系統中的主數據進行集中的標準化和清洗，再將統一的、完整的、準確的、權威的主數據分發至應用系統。在物料標準化領域，某集團目前主要采用物料主數據或物料編碼的方式來管理物料基礎數據。具體來說，就是通過定義物料數據的分類以及不同分類數據的屬性模板，在新增物料主數據時選擇分類，再逐項填寫模板。物料主數據的建設周期根據企業體量大小有所不同，大部分建設周期超過6個月，有些特大型企業甚至需要1-2年才能建成。

（二）自然語言處理技術

自然語言處理技術（NaturalLarguageProcessing，以下簡稱“NLP”）是人工智能領域的代表技術之一，是指計算機可以理解人類語言并能閱讀和書寫的信息技術。得益于深度學習算法和機器學習算法，該技術能使計算機對文本數據進行系統分析，從中提取關鍵信息幫助使用者處理海量數據。NLP能快速處理單篇大量文本數據或者相似篇章，從邏輯上分為字詞、句法和篇章級別。

1.字詞級別

字詞級別的分析是NLP的基石，它關注于文本中單詞和短語的識別、處理和組織。自20世紀50年代以來，隨著計算機用于處理自然語言文本的需求增加，詞匯處理的重要性顯著提升。初期，詞典的編制是手工進行的，后來發展出自動工具，能夠更高效地生成或修改詞典。詞法分析不僅關注于單詞的識別和標記，而且分析詞與詞之間的聯系，從而獲得對文段局部表達信息的抓取。例如，詞性標注（POS）是詞法分析的一個重要方面，它涉及為文本中的每個單詞賦予一個詞性標簽。這個過程比在詞典中查找單詞及其詞性更加復雜，因為許多單詞可以在不同語境下具備多種詞性。例如，英文中的復數名詞“dogs”既可以表示名詞，也可以表示動詞。此外，詞形還原和停用詞刪除也是詞法級別分析的重要組成部分。詞形還原旨在通過識別一個單詞在特定語境下的語義并依此將其還原為元形態，而停用詞刪除則是篩除在后續分析過程中不需要的詞匯。字詞級常用技術主要包含五個方面。一是詞性標注技術，它涉及給定句子中的每個單詞從給定標簽組中賦予詞性標簽。1993年由馬庫斯（Marcus）等提出的賓州樹庫（PennTreebank）項目提供了對英文文本的詞性標簽集合。中文詞性標注任務由思（Ng）和洛（Low）在2004年提出，其任務目標是在聯合分割標注的任務中，計算基于詞級別的精確率和召回率以及F1分數。早期詞性標注工作多使用基于隱馬爾可夫模型的序列標注方法。在神經序列模型興起后，最新研究成果集中在使用條件隨機場CRF以及循環神經網絡、BERT模型進行序列詞性標注工作。例如，2020年Tian等人提出的基于知識以及注意力機制的漢語詞性聯合標注方法取得了較好的標注效果。二是命名實體識別技術（NER），它涉及識別文本中的特定實體，如人名、物料名、價格等。Collobert等的多任務方法中包括該任務，但沒有報告結果。NER在信息抽取、問答系統和文本摘要等應用中起著關鍵作用。它通常依賴于深度學習技術和大量的標注數據來訓練模型，以達到高精度的實體識別。在多任務學習的概念下，NER的實現通常涉及復雜的模型和算法。例如，使用卷積神經網絡和最大池化執行詞性以及命名實體識別標記。這些方法需要依賴專家知識和人工構建的規則提取特征。三是同義詞分析技術，在于理解和識別不同詞匯在特定上下文中可能具有相同的意義。這要求對詞匯的語義屬性有深入的理解，通常借助于大規模的語義網絡和語料庫來實現。Zheng等使用簡單的CNN分類句子中元素之間的多種關系。例如，在詞義消歧任務中，同一詞匯在不同上下文中可能具有不同的含義，識別這些含義對于理解文本至關重要。四是中文分詞技術，中文的書寫特性，詞匯之間缺乏明顯的界限，中文分詞成為理解和處理中文文本的首要步驟。這個過程涉及使用算法將連續的文本字符串分割成有意義的單元或詞匯。中文分詞的任務目標是在聯合分割標注的任務中，計算基于詞級別的精確率和召回率以及F1分數。隨著技術的發展，中文分詞方法從基于規則的方法轉向了基于統計和機器學習的方法，大大提高了分詞的準確性和效率。五是字詞向量分析技術，涉及將詞匯轉化為數值形式的向量，從而能夠被計算機程序處理。Word2vec、GloVe和FastText等模型在字詞向量分析領域取得顯著成果。Mikolov等提出Word2vec方法通過使用神經網絡模型以無監督的方式從大規模文本語料中學習單詞的分布式表示，這種分布式表示方式可捕捉到單詞之間的語義和語法關系，將單詞轉化為具有語義信息的向量表示。例如，Word2vec可以使用Skip-gram和CBOW兩種語言模型建模方式以更好地建模上下文和目標單詞之間的關系。相比于以往的方式，Word2vec能從大規模文本數據中自動學習單詞的分布式表示，避免傳統方法中手工設計特征的繁瑣過程。Word2vec的提出和成功應用極大地推動了單詞嵌入研究的發展，激發了更多研究者探索和提出改進的單詞嵌入模型。這些模型不僅在詞義表示上取得了重大進步，而且在各種自然語言處理任務中展現出顯著的效果，豐富了對詞語表示和語義關系的理解。

2.句法級別

句法級別的分析通過分析句子的語法結構來獲知句子的正確構成，它涉及短語和句子的結構以及短語或句子中單詞之間的關系。例如，改變語序會改變單詞之間的依賴關系，也可能影響句子的理解。句法分析要求輸入保留原始文本形態，即與詞形還原以及停用詞篩除等操作不兼容，這些操作會改變原有句子的意思以及讓詞匯喪失其語法特征。在許多研究中，詞法分析被視為句法分析的子任務。句子級別的句法處理任務包括文本組塊分析、依存解析等，這些任務為下游自然語言處理任務提供有效的信息基礎。例如，文本組塊分析將句子分割成不重疊的部分，并且依據句法作用給單詞打上句法作用標簽，例如名詞短語和動詞短語。這有助于機器學習句子結構和單詞之間的關系，為下游自然語言處理任務（如命名實體識別、文本摘要和情緒分析等）提供基礎。

3.篇章級別

篇章級別分析關注于文本整體的邏輯和結構，這包括解釋句子之間的關系以及從多個層面揭示文本的語言結構。篇章級分析的常見任務是共指消解，其目的是在一段文段或篇章中找到所有對同一實體的描述表達式。2017年，李（Lee）等首次提出端到端的共指消解模型。例如，共指消解是自然語言處理任務之一，這項任務旨在對同一實體的不同描述進行查找，這一技術在較多的下游NLP任務中使用。通過理解句子之間的關系，篇章級分析揭示了整個篇章的語義信息，確保其連貫性和一致性。例如，文本中“他”“她”“它”等代詞的正確指代是篇章分析的關鍵部分，這對于理解文本的意圖和情感至關重要。

隨著人工智能技術的逐步普及，自然語言的識別與理解的準確率與效率有了較大提升，NLP在多個領域都有了專業應用。在快遞寄遞過程中，借助NLP可以準確識別目的地點、收件人姓名、手機號等信息，識別效率高。在新聞分析過程中，借助NLP能將有效提取新聞關鍵信息，包括時間、地點、人物、事項等，形成初步結構化的內容，可進行更加快捷、精準的信息搜索。當前，在采購物料領域采用NLP實現主數據有效治理的文獻還不多，相關解決方案較少，亟需填補該領域的空白。本研究使用NLP來加速數據清洗，以提高數據治理的速度和準確度。

三、研究方法及應用

本研究基于某集團各專業化公司現有物料分類及物料編碼數據，通過NLP技術的識別及算法優化，形成一套某特色的主數據標準體系。在此基礎上，將NLP技術融合到主數據管理系統及相關業務系統中，實現數據的規范及深度應用，如圖1所示。

圖1 物料主數據治理創建流程

（一）數據采集

物料標準化建設必須基于企業的實際業務活動，與業務人員息息相關。在進行物料標準化體系建設前，必須對相關單位、部門的實際物料管理需求進行全面調研，內容包括：現有物料的分類體系、編碼規則、數據模型等，同時還要對物料的管理流程、管理部門、管理系統進行全面盤點，在此基礎上進行數據采集。

研究團隊共收集到集團各專業化公司物料分類13套，物料編碼數據約140余萬條，涉及糧、油、糖、棉、肉等主要物料，以及企業生產經營過程中的包裝材料、儀器儀表、機械設備及備品備件等多種物料。對于收集的數據進行初步的匯總分析，借鑒國家標準、行業標準、國家統計相關制度等，重點關注農產品、農產制品等品類，結合實施方法論，形成了物料標準化整體工作藍圖，初步規劃了物料28個一級大類，如表1所示。

表1 物料一級大類清單

（二）數據標準建設

物料主數據建設重點是主數據標準的建立。主數據標準包括：物料分類、物料描述、物料編碼等要素。本研究中，主數據標準建設采用“算法為核心、人工專家輔助”的方法，標準由數據而來，再通過物料專家進行人工輔助優化。

主數據標準中的分類對應NLP技術的目錄提取功能，對物料描述中的實體進行識別，去除修飾性內容，得到物料的末級分類，同時也是物料的基準名稱。主數據標準中的物料描述對應NLP技術的標簽管理功能，需要對物料描述中的內容進行分詞、標注，以此來訓練物料描述中關鍵特征參數的提取。

（1）目錄提取。在目錄提取階段，采用深度學習方法前向和后向長短期記憶神經網絡（BiLSTM）+條件隨機場（ConditionalRandomFields，以下簡稱“CRF”）實現命名實體識別。BiLSTM循環神經網絡通過雙向設置，能學習到觀測序列之間的依賴關系，自動提取觀測序列的特征。CRF層的加入，可對特征的轉移關系進行建模處理。使用BiLSTM+CRF技術處理輸入的原始物料目錄數據，從中標注出對應的實體名詞，標注準確率達到了99%以上，如圖2所示。

圖2 目錄提取流程

此外，采用基于詞庫和規則算法來處理實體之間可能存在的多重關系，如包含與被包含、交叉、互斥等。通過實體提取和實體選擇的算法過程，能夠從物料目錄數據中提取出標準化的物料目錄。算法本身已經內置了大量的通用數據，可以對常見的物料進行目錄提取，隨著訓練數據的不斷增加、詞庫及規則的不斷優化，目錄提取準確性也不斷提高。

經過算法的提取及優化，研究團隊從某集團現有數據中提取的目錄數量為8448個，與類似的大型集團化企業對比，數量合理。

（2）特征標簽構建。物料描述的核心在于屬性的規范填寫。傳統的物料主數據管理方法，一般會按不同的類別設置核心屬性，進行物料的查重等工作。借助NLP的標簽管理功能，能夠提取和標注物料描述的特征標簽，后期則可以依托算法對物料描述進行自動識別處理，無需再人工結構化后使用，如圖3所示。

為實現物料特征標簽的準確識別，本方案采用了基于樹型結構的關鍵字快速匹配算法。該算法能夠解決物料特征標簽提取中的同義、近義、別名等模糊匹配問題和正則化問題。

圖3 物料特征構建方案

物料特征標簽構建的另一個核心是梳理物料特征的鍵值對應關系，提供快速匹配算法進行規則匹配。例如，小麥（100206）的渠道可以是國產、進口等值域，如圖4所示。該對應關系的梳理在傳統解決方案中通常采用專家人工經驗。本方案采用物料特征信息挖掘算法，從歷史數據中獲取大量的專家級信息內容。具體挖掘過程包括以下步驟。

圖4 物料特征標簽識別過程

首先，依據目錄標簽提取技術對歷史數據進行分類處理，通過對原始數據中的目錄信息的標簽化處理，得到目錄的標簽值，以標簽值作為歷史數據的分類依據。其次，對同類別數據進行分詞處理，得到各個類別物料的特征詞語集，進行詞頻統計并設定閾值，選取TOP詞作為高頻詞，將得到的高頻詞作為特征項備選庫。最后，采用關聯規則算法對特征詞語集內的其它詞語與高頻詞的關聯關系進行挖掘分析，得到各個高頻詞的關聯關系詞，將關聯關系詞作為特征值的備選庫。借助人工專家經驗對特征項和特征值的備選庫進行修正，得到可使用的物料特征信息。

第一步，對歷史數據中的目錄標簽進行分類和提取。通過目錄標簽提取技術，研究團隊能夠自動識別和提取原始數據中的目錄信息，并將其轉化為標準化的標簽值。標簽值作為分類依據，使得數據能夠按照預設的類別進行組織，從而便于后續的處理和分析。

第二步，對同一類別的數據進行分詞處理。這一步驟涉及將文本數據分解為單個的詞匯單元，以便更好地理解和分析數據內容。通過分詞，研究團隊能夠識別出各個類別物料的特征詞語集，這些詞語集包含了與特定物料類別密切相關的詞匯。

第三步，對詞頻統計，以確定每個類別中出現頻率最高的詞匯。這些高頻詞匯被視為特征詞，它們在物料描述中出現的概率較高，因此能夠作為物料分類的重要依據。通過設定一個合理的閾值，篩選出TOP詞，即在特定類別中出現頻率最高的詞匯，這些詞匯構成了特征項備選庫。

第四步，通過關聯規則算法進一步豐富物料的特征信息，以便揭示數據集中不同項之間的關聯性。通過分析特征詞語集內的其他詞語與高頻詞之間的關聯關系，研究團隊能夠挖掘出與高頻詞強關聯的其他詞匯。這些關聯關系詞被納入特征值備選庫，可以為物料的詳細特征描述提供額外信息。之后，人工專家能夠根據實際業務需求和行業知識，對算法提取的特征項和特征值備選庫進行校正和優化。至此，研究團隊得到了可以信賴、經過驗證的物料特征數據，同時也為后續的數據高效清洗奠定了基礎。

（三）主數據標準人工完善優化

為保證數據質量，需要進行人工完善優化。研究團隊根據某集團實際業務情況，組建由不同品類專家構成的多個工作小組和總體組，其中總體組負責各小組的工作協調，工作小組基于NLP技術采集來的物料目錄、數據提取產品屬性特征、常用描述等數據要素，微調優化形成各自品類的主數據標準?？傮w組將各小組輸出的標準數據進行總體梳理，形成分類標準、分類描述、分類編碼規則、物料標準、物料描述規則、物料編碼規則。經過整合后，最終形成某集團主數據標準。其中分類標準包含物料大類29個、中類415個、小類2733個、細類8448個，標簽特征參數9874個，特征參數值域近10萬個。

四、數據清洗整合

在數據采集階段，研究團隊已經收集了大量物料編碼數據，但存在數據標準不一、描述不規范不一、整體質量不高等問題，亟需進行數據清洗。數據清洗過程的難點有：物料分類錯誤或交叉；物料描述不規范，屬性填寫錯誤或關鍵屬性缺失；物料描述包含“-”“—”“/”“*”“×”等特殊字符。

研究團隊運用NLP技術開發了一套智能物料管理工具，對大量數據進行智能清洗，針對性解決了物料清洗中的難題。該工具能實現以下兩大功能：

①智能識別分類：通過算法目錄提取功能，自動識別集團分類歸屬，對于未能推薦的分類可以人工補充；

②智能識別關鍵參數：通過算法識別物料描述關鍵參數，形成結構化數據。

借助智能物料管理工具，研究團隊對歷史數據進行了清洗，按照新類別對數據重新歸類，按照算法對物料描述進行識別處理，解決了因前后順序、特殊字符、描述不規范等造成的一物多碼的問題。對于歷史物料編碼數據，按照新的規則進行集中統一賦碼，實現了各專業化公司原編碼與集團物料主數據編碼的自動映射，形成N：1的對應關系。通過清洗整合，共產生集團編碼80余萬條。

五、數據應用

研究過程中，團隊以系統應用為目標，集團物料編碼采用雙編碼方式

雙編碼模式：在系統中展示的編碼為分類+流水碼的形式，但是系統后臺中會通過算法對物料描述進行識別處理，形成一個有含義的特征碼。編碼在系統各表單中進行展示，特征碼用于物料描述的查重、查詢。，即：表現層為分類碼+流水碼，使用場景是數據的呈現和流轉；隱含層為分類碼+特征碼，使用場景是數據的映射和應用。隱含層編碼由計算機根據上述構建好的物料特征標簽自動生成，集團和相關專業化公司物料主數據都生成隱含層編碼后，以隱含層編碼作為橋梁，進行新舊表現層編碼的映射。

以某型號空調為例，表現層編碼及隱含層編碼如圖5所示。

圖5 雙編碼方式示意

目前在某集團，物料主數據已經打通了集采商城、集團ERP以及專業化公司相關系統（如圖6所示）。在集團E采平臺中的需求計劃、尋源管理、招標投標、協議訂單等環節都可以看到物料主數據的應用。

圖6 物料主數據在集團各系統中的布局示意

1.采購需求計劃環節的應用

業務部門在采購物資時需生成請購單，但傳統系統中信息孤島導致技術規格參數不全面，影響采購質量。在需求計劃中引入物料主數據編碼可以解決這一問題，進而實現采購數據標準化，統一管理物資品目和規格型號。這有助于采購預算管理、供應商評審和比價，提升采購效率和質量。物料編碼的統一化使得集團能實施規?；胁少?，吸引優質供應商，形成有競爭力的環境。這不僅提高了采購質量，還對供應商提出了更高要求，促使供應鏈結構優化，只有具備一定規模和實力的供應商才能參與大型項目，從而推動集團供應鏈的整體升級。

2.采購分包環節的應用

采購部門在處理集采項目時，傳統方法在分標或分包件上主觀性強，缺乏科學標準，可能導致供應商競爭不足或流標。此環節接入物料主數據編碼和大量的已成交編碼數據，并對歷史的采購數據和采購行為進行預分析處理，結合采購物料的分類歸屬情況，可以形成不同物料之間的關系知識圖譜模型。借助該模型可以對當前集采項目的清單明細進行有效的社團劃分，實現快速的分標或包件劃分。

3.采購方案環節的應用

在制定采購計劃后，設計采購方案時涉及多種采購方式，成本評估挑戰重重，通常依賴人工進行供應商報價的橫向和縱向比較，效率低且主觀。借助物料主數據編碼，可以實現對大量歷史物料數據的分析，將不同供應商的響應明細進行快速匹配，構建橫向比較的基礎，同時還可以借助品目分類形成數據標簽，實現當前物料明細與歷史同類物料明細的縱向比較。這樣通過標準化轉換的物料，其規格參數和報價金額的差異可直觀的進行比對，采購人或評審專家可借助對比結果合理的制定采購預算。

4.采購協議和合同管理環節的應用

在供應商尋源并確立采購協議、合同或訂單后，物資價格對企業成本管理至關重要。傳統的成本更依賴于人工，效率低且有誤差。通過物料主數據編碼的應用，無論是集中采購還是分散采購的物資，都能實現編碼一致性，便于直接比較價格。計算機程序能自動篩選出價格差異顯著的物資，簡化成本控制過程。

六、研究討論

（一）成果評估

本研究實現了NLP技術在大型企業主數據治理建設中的良好應用。初步測算，主數據標準建設需投入的專家人數與傳統方式相比，減少50%，工作方式由脫產集中辦公變為人工監督確認，項目投入人力及時間成本整體降低77%，如圖7所示。

本研究清洗完成后的數據約為80萬條，使用傳統方式處理則至少需要6個月，且需投入大量人力，而本研究中兩名數據處理人員僅耗時1個月就完成了全部數據處理，整體效率提高90%以上。同時，隨著主數據在企業信息系統中的深度應用，實現了標準數據在各業務流的廣泛存在，為后期數據精準分析、價格監控預警、供應商品類管理奠定了基礎。

但也面臨一些挑戰。首先，隨著物料品類的豐富，算法要隨之持續迭代優化。其次，人工復核的過程需要更好地協調，以提高效率。最后，研究過程中也遇到了一些潛在問題，如數據安全性和隱私問題。

圖7 采用NLP技術實現降本增效對比

（二）改進方向

ChatGPT等大語言模型的出現和應用，使得機器能夠理解和生成更加豐富和復雜的文本，這一技術為物料識別、標注以及算法訓練提供了新的可能性。未來，可以預見到大模型技術將在物料管理中的應用將更加廣泛和深入。通過將這些強大的語言處理能力與現有的智能物料算法模型相結合，能夠構建出更加高效和智能的物料管理系統。具體來說，大型語言模型可以作為系統的輸入層，負責理解和解析物料的描述信息，而現有的智能物料算法模型則可以作為輸出層，負責執行具體的物料分類、編碼和庫存管理任務。通過深度學習技術，這兩種模型可以被有效地融合在一起，形成一個統一的、高度智能化的物料管理框架。這一技術框架，不僅有助于減少人工干預，還能提高物料識別的準確性，從而減少因描述不規范導致的物料編碼錯誤。同時，這種融合模型還能夠通過持續學習和優化，不斷提升其性能和實用性，以適應不斷變化的物料主數據管理需求。

隨著數據訓練數量的增加和處理能力的增強，數據安全問題也日益凸顯。為了保護核心關鍵數據，必須建立一套全面的安全保護機制。這包括實施嚴格的身份認證流程，確保只有授權用戶才能訪問敏感數據；執行訪問控制策略，限制用戶對數據的訪問權限，防止未經授權的數據泄露；采用加密技術保護數據在傳輸和存儲過程中的安全；以及加強網絡安全防護，防止外部攻擊和內部威脅。通過這樣的安全措施，可以在享受大模型技術帶來的物料管理效率提升的同時，確保數據的安全性和完整性，為企業的長期穩定發展提供堅實的保障。

七、研究結論

一是NLP技術提高了數據處理效率。在數據處理方面，通過應用物料數據智能化處理技術，在較短時間內完成了全部數據的梳理工作，統一了全集團物料主數據目錄并建立了相應的物料主數據庫，整體減少人工工作量約80%。

二是NLP技術提高了主數據管理能力。本研究中，團隊將NLP應用到主數據日常管理工具中，便于從數據的新增源頭進行管控，為企業提供更加準確和及時的數據支持，有效助力企業經營管理決策。研究成果獲得2023年度中國物流與采購聯合會科技進步三等獎。

三是NLP技術將帶來行業技術提升。通過對大型企業應用NLP技術開展物料主數據治理的實踐進行研究，表明該技術在物料主數據治理中的應用價值和前景較好。未來可在本研究基礎上，探討進一步拓展人工智能技術在行業物料主數據治理中的應用范圍，不斷提高模型泛化能力，從而助力更多企業實現物料主數據治理水平的提升。

參考文獻：

［1］張德進，王磊，尤靜，等.企業主數據分析與表達技術研究［J］.機械設計與研究，2008.

［2］陳凱，路銀北.鋼鐵企業信息化中MES與ERP的集成應用［J］.自動化與儀表，2011.

［3］王道平，徐曉靜，張偉榮.SAPR/3物料管理中物料主數據的應用［J］.科技管理研究，2010.

［4］畢子健，王翎穎.物資主數據標準化管理探究.［J］.中國電力教育，2014.

［5］陳景文.主數據管理：打造大數據時代企業核心競爭力［J］.通信世界，2014.

［6］張俊華.集團主數據貫標實施的策略與方法［J］.CAD/CAM與制造業信息化，2014.

［7］陳彥.淺談企業ERP物料主數據管理與維護［J］.電子制作，2014.

［8］王里勻.淺述企業中SAP物料主數據管理的技術實現［J］.科技創業家，2013.

［9］楊智偉.ERP系統物料主數據的標準化管理［J］.石油石化物資采購，2013.

［10］張義強，欒平景，裘敬發，等.物料主數據標準體系及其在ERP中的作用與影響［J］.鐵道技術監督，2013.

［11］和軼東，張怡，曹乃剛.SAPMDM主數據管理［M］.北京：清華大學出版社.2013.

［12］趙飛.基于全生命周期的主數據管理［M］.北京：清華大學出版社.2015.

［13］張光宇.基于主數據的企業信息化管理的研究與實現［D］.綿陽：西南科技大學，2017.

［14］謝洪彥.主數據資源庫驅動的工裝應用過程管控系統設計與實現［D］.成都：電子科技大學，2018.

［15］劉藝飛.面向大數據應用的鐵路主數據管理關鍵技術研究［D］.北京：中國鐵道科學研究院，2018.

［16］馬馥穎.主數據系統項目風險管理研究［D］.北京：北京郵電大學，2021.

［17］馬曉華.基于自然語言處理技術的IT治理審計方法研究［D］.安陽：安陽師范學院商學院，2021.

［18］陳楊.基于自然語言處理及知識圖譜的搜索系統設計與實現［D］.北京：北京工業大學，2022.

［19］MARCUSM，SANTORINIB，MARCINKIEWICZM.BuildingalargeannotatedcorpusofEnglish［J］.Thepenntreebank，1993.

［20］TIANY，SONGY，AOX，etal.JointChinesewordsegmentationandpart-of-speechtaggingviatwo-wayattentionsofauto-analyzedknowledge［J］.Anthology，2020：8286-8296.

［21］COLLOBERTR，WESTONJ，BOTTOUL，etal.Naturallanguageprocessing（almost）fromscratch［J］.Journalofmachinelearningresearch，2011：2493-2537.

［22］ZHENGS，HAOY，LUD，etal.Jointentityandrelationextractionbasedonahybridneuralnetwork［J］.Neurocomputing，2017：59-66.

［23］MIKOLOVT，CHENK，CORRADOG，etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality［J］.Advancesinneuralinformationprocessingsystems，2013.

［24］WOOLFBP.Buildingintelligentinteractivetutors：student-centeredstrategiesforrevolutionizinge-learning［J］.Morgankaufmann，2010.

［25］LEEK，HEL，LEWISM.，etal.End-to-endneuralcoreferenceresolution，proceedingsofthe2017conferenceonempiricalmethodsinnatural［J］.Languageprocessing，2017：188-197.

TheApplicationofNLPTechnologyintheprocurementMaterial

MasterDataGovernancePracticesinLargeEnterprises：

TakingaCertainGroupasAnExample

ZHAOWei1，HOUFang-dong2，WUHao1，FENGQing2，HOUYa-ming2，LIUYan-xi2，WANGXu2

（1.COFCOGroupCo.，Ltd.，Beijing100020;

2.COFCOInformationTechnologyCo.，LTD.，Beijing100020）

Abstract：

Themainresearchcontentsofthispaperareasfollows.First，Theresearchbackgroundofthemaindataandtheapplicationstatusofthedomesticandforeignresearcharecomprehensivelyintroduced;secoud，theoreticalresearchonthedatagovernanceofbusinessownersisconducted，includingthecomposition，methodologyandmaturitymodelevaluationofmasterdatagovernance;third，takeacertaingroupasanexanple，andconductthedemandresearchandanalysisofthematerialdatamanagement，Analyzetheproblemsencounteredintheinformationconstruction，introduceNLP（naturallanguageprocessing）technology，throughthemodeldesignandthestepwiseoptimization，Soastoimprovethequalityandefficiencyofmaterialclassificationandsorting，attributeextraction，datastructuring，datastandardization，dataweightcheckandotherlinks.Asetofmaterialmasterdatamanagementschemesuitableforthecertaingroupisdesiqned;

Comparedwiththetraditionalmaterialmasterdataconstructionmode，thecoreofthistechnologyliesinthatthematerialdataidentificationandprocessingisreplacedbyintelligentalgorithm，whichimprovesthequalityandefficiencyofwork，isinlinewiththetrendoftechnologydevelopment，andprovidesanewpathforthestandardizationconstructionofthematerialspurchasedbymanylargeenterprises.

Keywords：NLP;materialprocurement;masterdatagovernance;standardization

猜你喜歡

標準化綜合

電器工業(2023年1期)2023-02-13

標準化簡述

口腔護理用品工業(2021年4期)2021-11-02

標準化綜合

電器工業(2018年10期)2018-10-27

企業標準化管理信息系統

機械工業標準化與質量(2018年5期)2018-05-30

標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》

中國公路(2017年9期)2017-07-25

對標準化管理工作的幾點思考

水利技術監督(2017年2期)2017-05-17

解讀：國家標準委副主任談標準化法

福建輕紡(2017年12期)2017-04-10

如何創建標準化團隊?

知識經濟·中國直銷(2016年4期)2016-11-07

以標準化引領科技創新

質量與標準化(2015年7期)2015-07-12

論汽車維修診斷標準化(上)

汽車維修與保養(2015年8期)2015-04-17

供應鏈管理2024年3期

供應鏈管理的其它文章: 生產者責任延伸制下考慮平臺綠色監管的回收決策研究; 不同中斷情形下汽車供應鏈中斷的恢復策略研究; 數字經濟促進經濟高質量發展的效應與機制研究; 2023年我國跨境電商出口特點、機遇與挑戰; 以文旅融合促進大運河文化帶流通供應鏈完善的策略研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合