?

LLM在工業品物料分類場景的應用

2024-01-11 10:23
寶鋼技術 2023年6期
關鍵詞:葉類工業品微調

朱 俊

(歐冶工業品股份有限公司,上海 201900)

1 工業品領域物料分類技術現狀及場景落地

1.1 工業品領域物料分類任務的概述

隨著全球工業化進程的不斷推進,工業品領域物料的種類與數量呈現出爆炸式增長。自21世紀初以來,全球制造業產值已經翻了一番多[1]。如何對這些物料進行有效的分類和管理,已經成為企業降低成本、提高生產效率和市場競爭力的關鍵問題。采用有效的物料管理系統可以幫助企業提高生產效率,同時降低庫存成本。因此,研究工業品領域物料分類技術具有重要的實際意義和理論價值。

1.2 NLP技術在工業品領域物料分類中的應用及局限性

近年來,自然語言處理(NLP)技術在物料分類領域取得了顯著的成果。主要可以概括為基于規則的分類方法和基于深度學習的分類方法。

基于規則的分類方法是物料分類技術的傳統方法,通過人工設定一系列規則進行分類,例如基于專家經驗制作關鍵詞—物料類別對照表。這種方法在物料種類較少、規則明確的場景下具有一定的實用性。然而,隨著物料種類的增多,規則的制定變得越來越復雜,人工設定的規則很難覆蓋所有物料,導致分類效果不理想。

隨著深度學習技術的不斷發展,這類方法在物料分類上也得到了不少應用,并具有更好的泛化能力和更高的準確率[2]。例如DNN、LSTM、BERT等,可以有效地解決基于規則方法在物料種類繁多、規則復雜的情況下的局限性,可以隨著數據集的增長和變化不斷優化模型性能[3]。

然而,基于深度學習的物料分類方法仍然存在一定的局限性。首先,深度學習模型需要大量的標注數據進行訓練,而在工業品實際場景中,大部分物料數據質量較差,存在物料屬性數據缺失、型號規格書寫不規范等問題,獲取高質量的標注數據是一大難題。此外,深度學習模型的可解釋性較差,由于工業領域對準確性的要求較高,這可能導致企業在實際應用中對模型輸出的結果產生質疑,從而影響模型的推廣應用。

綜上所述,工業品領域物料分類技術已經取得了一定的成果,但仍然面臨著諸多挑戰。傳統的基于規則的分類方法在應對復雜物料分類任務時顯得力不從心,而基于深度學習的分類方法雖然具有一定的優勢,但也存在數據需求高、可解釋性差等問題。

近期,隨著GPT模型的快速崛起,生成式大語言模型逐漸成為自然語言處理領域的新風向,大量任務引入生成式大語言模型并取得了顯著的效果。因此,在未來的研究中,探討如何將生成式大語言模型與物料分類技術相結合,實現對工業品領域物料的高效識別和分類,具有重要的研究價值。

2 生成式大語言模型在工業品物料分類上的應用

2.1 生成式大語言模型原理

大語言模型(LLM),如GPT-3和GPT-4(GPT即生成預訓練 Transformer)是基于Transformer架構的NLP模型。大語言模型的訓練過程基于一個被稱為“自監督”的學習任務。在這個任務中,模型預測給定一個文本序列中的下一個詞是什么。例如,如果輸入的文本是“今天天氣很好,我打算去公園”,那么模型的任務可能是預測“出行”這個意圖。這個任務要求模型學習到大量的語言知識,包括語法、詞匯、習語,甚至一些世界知識。LLM通過在大量的文本數據上進行訓練來完成這個任務。訓練數據可以包括各種類型的文本,比如書籍、文章、網頁等。模型通過這種方式學習了大量的語言模式,從而可以生成流暢且自然的文本。

大語言模型可以應用于各種自然語言處理任務,包括但不限于以下幾個方面:

(1) 文本生成:生成一篇文章,寫一個故事,或者是創作一首詩。

(2) 機器翻譯:將文本從一種語言翻譯成另一種語言。

(3) 問答系統:在問答系統中,大語言模型可以用來生成問題的答案。

(4) 文本摘要:生成文本的摘要或者是概括。

(5) 情感分析:分析文本的情感傾向,是積極還是消極。

(6) 代碼生成和代碼理解:理解和生成編程代碼,這對于開發者幫助和代碼自動完成等場景非常有用。

(7) 聊天機器人:用于構建能夠與人自然交流的聊天機器人。

2.2 工業品物料分類應用場景

在工業品采購過程中,基于采購需求的描述,對工業品詢單物料進行分類,有助于精細化識別用戶需求,推薦最優質的供應商。在該應用場景中,分類模型需要根據非結構化物料文本信息(可能包括物料名稱、型規、技術屬性及使用場景),將物料分類到一個具體的葉類,葉類來自于給定的物料葉類體系。本文用于訓練的數據集是物料庫中的物料數據,共1 081 488條,每條包括名稱、品牌、型規、技術屬性、葉類字段,其中葉類即為預測目標,共581個葉類。另外有來自于實際業務場景中的物料數據523 897條,不包括所屬類別信息。

2.3 生成式大語言模型數據增強及效果

針對該場景,使用傳統的規則方法或深度學習方法效果較差。本文提出一種使用大語言生成式模型增強工業品物料分類的方法,以提高分類的準確性和魯棒性,并降低算力消耗。

首先,通過引入生成式大語言模型,分別對訓練數據進行增強,以及對多個分類模型進行集成,以增強分類模型的表現。作為參考,本文首先設計了一個基于關鍵詞—葉類表的TF-IDF統計學分類模型(每個關鍵詞對每個葉類計算TF-IDF,形成關鍵詞—葉類的權重表),一個基于Word2Vec+LGBM的分類模型[4],以及一個基于微調后的BERT的分類模型[5],各原始模型分別在測試集上的表現如表1所示。

表1 原始分類模型效果統計指標Table 1 Statistical metrics for the performance of the original classification model

本文以BELLE-7B-2M模型[6]為基礎,通過物料數據庫數據對BELLE進行微調,對原始數據進行增強。微調采用instruct-answer的形式,instruct為“有以下物料信息,{物料名稱、型規、品牌、技術屬性的拼接},請問它屬于哪個葉類”。answer為“{葉類名稱}”。微調數據采用平滑分布抽樣[7]后的物料庫數據2萬條,并保證每個葉類至少有一條物料數據。

在第一階段,使用生成式大語言模型對數據量較少的葉類進行數據增強。具體實施步驟見圖1、2。

圖1 使用原分類器結合人工審核找到分類效果較差葉類數據Fig.1 Finding poorly classified leaf data by the original classifier and manual review

圖2 使用BELLE對數據集進行增強Fig.2 Data augmentation with BELLE applied to the dataset

(1) 在物料數據庫中,采用分布平滑抽樣的方法取15%的數據作為測試集[7],并確保每個葉類至少有一個測試數據。統計三個模型的測試集結果,分別統計結果中所有葉類的F1值,取在三個模型下F1值均處于后四分之一的葉類作為待增強葉類集合。

(2) 使用LGBM、BERT和TF-IDF這三個模型分別對物料數據進行分類,得到三個類別預測結果(可以重復)。使用微調后的BELLE在這三個結果中進行選擇。取結果屬于待增強葉類的物料并人工審核BELLE的選擇是否正確,篩選后得到共1 362條物料數據,作為增強樣本。

(3) 使用BELLE對增強樣本進行數據增強,即通過prompt“生成類似{增強樣本中的物料信息}的物料數據”使BELLE生成近似的物料數據,以1∶10的比例擴充增強樣本以解決原數據分布不均及稀疏的問題[8]。

(4) 使用增強樣本繼續微調訓練LGBM和BERT模型,使其在待增強葉類上的性能得到提升。

在一階段融合后,LGBM和BERT在同樣的測試集下表現如表2所示。

表2 一階段加強后分類結果Table 2 Classification results after first-stage enhancement

在第二階段,將增強后的LGBM模型、增強后的BERT模型,以及原始的TF-IDF模型在推理階段進行集成,從而進一步提高工業品物料分類的準確性和魯棒性。具體實施步驟如圖3。

圖3 使用BELLE對BERT、LGBM和TF-IDF分類進行集成Fig.3 Integration of BERT,LGBM,and TF-IDF classifiers using BELLE

(1) 分別使用增強后的LGBM模型、增強后的BERT模型和原始的TF-IDF模型對測試樣本進行推理,得到各自的預測類別。這一步驟可以提供多種視角的預測結果,為后續的融合打下基礎。在實際操作中,我們將各模型的輸出結果進行歸一化處理,以消除不同模型預測概率值之間的差異。

(2) 使用微調后的BELLE對這三個預測類別進行判斷。具體而言,微調后的BELLE模型會將各模型的預測結果作為輸入,輸出一個綜合評估后的類別預測。BELLE模型基于其自身與訓練及微調的結果,對物料信息及三個模型的分類結果進行理解并選擇,從而使集成后的模型性能更加優越。

通過BELLE進行集成學習后在同樣的測試集下可以得到表3所示結果。

表3 二階段加強后分類結果Table 3 Classification results after second-stage enhancement

2.4 試驗結果與分析詳述

本研究采用了三種模型:TF-IDF統計分類,LGBM及BERT模型進行分類,并采用微調后的BELLE-7B-2M模型進行兩階段的加強。實驗結果顯示,在使用微調后的BELLE模型一階段加強,對LGBM和BERT進行樣本增強和再次訓練后,LGBM在精確率0.88、召回率0.87和F1值 0.87上有所提升,BERT在精確率0.87、召回率0.89和F1值 0.88上也有所進步。在微調后的BELLE模型二階段加強后,通過對三個基礎模型的預測結果進行選擇完成對三個模型結果的集成,集成后的模型在精確率0.89、召回率0.90和F1值 0.89上相比三個模型獨立工作取得了進一步提升??傮w來說,通過BELLE加強原分類模型的方法在提升模型性能方面取得了成效。

3 結語

本文通過對工業品領域物料分類技術的分析,提出了一套結合生成式大型預訓練模型(如BELLE)和深度學習分類器的物料分類方案,并經實驗進行對比驗證了生成式大型預訓練模型能夠為分類任務帶來有效提升。這套方案充分利用了生成式模型在數據預處理和增強方面的優勢,同時結合領域知識和先進的深度學習技術,實現了高準確率的物料分類。

猜你喜歡
葉類工業品微調
淺談葉類蔬菜收獲裝備技術的現狀及發展趨勢
四川省葉類蔬菜機械化發展現狀及對策
工業品市場營銷模式創新思考分析
數字孿生與質量評價——基于工業品電商平臺的創新與實踐
我國莖葉類蔬菜有序收獲技術達國際領先水平
一種新型微調擠塑模具的設計及應用
工業品市場營銷模式創新研究
北京葉類蔬菜生產現狀及其變動趨勢分析
靈活易用,結合自動和手動微調達到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
全國大部省份結束2014高考 多地高考模式微調
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合