?

基于BERT算法的通信投訴智能處理探索

2024-03-12 05:34蔣燕程浩輝何丹
廣東通信技術 2024年2期
關鍵詞:工單語句關鍵

[蔣燕 程浩輝 何丹]

1 引言

隨著5G網絡普及發展,通信網絡架構日趨復雜化,通信業務種類也越來越豐富;同時,隨著各種即時通信、視頻和游戲等實時性要求高的應用的普及,用戶對通信網絡的質量要求越來越高,運營商面臨的投訴種類也變得多樣化。傳統通過人工進行投訴預處理和分揀的處理方式,難以適應問題多樣化、訴求復雜化的業務場景及發展趨勢的要求。因此,結合大數據、機器學習等技術,通過智能算法實現投訴的智能分類和處理對提升通信投訴處理效率、增加網絡用戶滿意度有著重大意義。

通信運營商正逐步實現數字化轉型、ICT轉型[1],通信投訴處理智能化是大勢所趨[2~4]。目前,針對大數據或機器學習算法在投訴處理領域應用,已有不少研究與探索,探討了大數據挖掘、機器學習算法在投訴預測、分析等方面的可行性[5~10]。文獻[5]提出了基于用戶畫像的標簽體系,利用機器學習分類算法反復迭代實現投訴問題自動和智能化的定界和定位。文獻[7]利用機器學習中的相關性分析技術,建立客戶投訴與故障發生的關系模型,構建基于故障的投訴預測模型,對潛在的客戶投訴進行預測。文獻[8]提出了一種基于深度學習的用戶投訴預測模型。通過深層網絡特征學習單元從電信用戶原始數據中自動學習到適合分類器分類的高層非線性組合特征,并將這些高層特征輸入到傳統分類器中來提高模型的精度。文獻[10]建立了一種基于大數據技術的投訴分析與預測系統,基于底層信令的全量分析,可有效定位故障原因,實施基于歷史投訴樣本庫的投訴預測,并提前進行干預。

本文結合投訴處理流程,針對在短時間內難以根據大量投訴描述文字進行準確分類及派發的痛點,提出了一種基于BERT的通信投訴智能處理方法。該方法針對投訴描述為非結構化長文本的特性,通過數據標注、模型訓練,形成針對投訴文本識別及分類的BERT模型,將該模型應用于投訴受理及調度流程,通過模型輸出結果實現投訴智能分類、智能流轉,達到提升通信投訴處理效率的效果。

2 基于BERT的投訴智能處理

2.1 BERT 算法

BERT的全稱為Bidirectional Encoder Representation from Transformers,是一個預訓練的語言表征模型,它采用新的掩蓋語言模型MLM(masked language model)訓練策略,通過無需標注的數據預訓練模型,提取語句的雙向上下文特征,在具體任務上根據具體數據微調學習,就能獲得極好的效果[11]。

BERT采用遷移學習(Transfer Learning)模式,上游進行語言模型的預訓練,下游微調并應用到具體業務中。在架構上,大量使用遷移模型Transformer編碼器堆疊而成[12],如圖1所示。

圖1 BERT算法模型架構

圖1中,嵌入層E提取文本詞向量、段向量和位置向量三個維度的特征進入編碼層,Transformer編碼器Tm基于雙向 Transformer 的特殊結構和自注意力(self-attention)機制,學習上下文的語義信息。

BERT 基于獨特的訓練策略來得到預訓練模型:掩蓋預測MLM和下句預測NSP(next sentence prediction)。掩蓋預測訓練隨機遮蔽部分詞,通過未遮蔽掉的詞提供上下文來預測,使BERT對上下文有著更深刻的感知。下句預測通過訓練使模型學習語序,理解語句間的邏輯關系,使模型能夠預測句子間在順序上是否有邏輯關系。通過這樣的訓練,模型不僅能學習句內信息,還能清楚地捕捉到句間邏輯,這種獨特的學習模式使其在問答系統、閱讀理解等問題上有出色的發揮。

2.2 基于BERT的投訴智能處理方法

通信投訴類別主要包括上網類、語音類、短信類、國際漫游類、家庭寬帶類以及集團客戶類等,種類多、投訴單量大、投訴描述復雜等因素均制約著人工分類的準確性,分類不準確則影響投訴的準確定界和工單準確下達。通過BERT算法對投訴工單內容實現文本語義識別及智能分類,能夠智能快速對投訴進行分類,進而實現投訴工單智能定界及流轉,主要實現方法如圖2所示。

圖2 基于BERT算法的投訴智能處理方法

工單系統調用基于BERT的智能處理AI服務,輸入投訴描述信息(非結構化長文本),AI服務基于BERT算法通過實體識別、關鍵語句提取、短文本分類3種下游調度任務實現投訴關鍵信息提取及智能分類,將算法輸出結果返回工單系統。工單系統根據AI服務返回結果,調用投訴定界系統執行相應類別的定界預案,獲取預案輸出結果。最后,工單系統將無法遠程解決的投訴工單,根據投訴類別、升級投訴意向等信息派發相應責任單位處理。

2.3 基于BERT的投訴智能處理AI服務

投訴智能處理AI服務通過分別構建相應的BERT模型完成實體識別、關鍵語句提取、短文本分類任務,解決非機構化長文本直接分類訓練樣本數量級要求高、分類準確率低的難題,完成結構化關鍵信息提取、智能分類的目的。具體實現過程如圖3所示。

圖3 基于BERT的智能處理AI服務實現

圖3中,實體識別BERT模型主要實現從投訴文本中識別投訴地址等信息。關鍵語句提取BERT模型主要實現從非結構化投訴長文本中提取關鍵語句內容,關鍵語句包括用戶的投訴問題、升級投訴意向等。最后,短文本分類BERT模型實現對關鍵語句提取任務的輸出結果進行智能分類,輸出投訴類別的判定結果,三部分下游任務的輸出形成AI服務的輸出結果,如圖4所示。

圖4 基于BERT算法的投訴智能處理AI服務輸出示例

BERT模型構建基于BERT-based-chinese 進行數據標注、模型訓練、參數調優等步驟構建。實體識別BERT模型通過標注地址數據訓練、構建;關鍵語句提取BERT模型以投訴問題為例,采用問答模式進行關鍵語句數據標注,通過提取不同類別業務異常相關問題對進行訓練實現。短文本分類BERT模型通過將關鍵語句標注投訴分類形成訓練數據構建實現。

數據標注數量級使用千條級別,各部分的數據標注樣例如圖5所示。

圖5 各下游任務BERT模型數據標注樣例

模型訓練采用pytorch框架實現,模型訓練過程如圖6所示。

本文中AI服務算法模型采用Flask框架部署,構建的BERT模型包括3層:編碼層(Encoding Layer)讓機器分別閱讀問題和文檔,使用編碼器對問題和文檔的每個詞進行建模,得到每個單詞的向量表示;匹配層(Matching Layer)利用注意力機制,將問題中的詞匯與文章中的詞匯進行匹配,從而篩選出能夠有效回答問題的信息;預測層(Prediction Layer)在問題和文檔匹配信息融合的基礎上,利用PointerNetwork找出最可能的答案開始和結束位置。3層模型如圖7所示。

圖7 BERT應用于投訴分類的三層模型

3 實驗結果與分析

3.1 實驗環境

本文的實驗環境:操作系統為CentOS 7;CPU為Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz;

GPU為NVIDIA V100單卡;內存為32G;Python版本為3.6.5;PyTorch版本為1.6.0。

3.2 實驗數據

本文實驗數據均為實際用戶投訴文本數據,模型訓練數據共計950條,模型驗證數據7萬條。依據前文所述數據處理方式,對訓練數據進行地址數據標注、問答關鍵信息標注、分類標注,實現不同類別業務異常相關問題的實時分類。實驗數據集統計如表1所示。

表1 各類投訴數據集

3.3 實驗結果

本文采用預訓練加下游任務微調模式,對標注和訓練數據要求較少、對訓練資源和輪次要求較少,僅需2~4輪即可達到較好效果。

在訓練樣本數量級不超千條、訓練輪次為4次的條件下,投訴智能分類準確率能達到90%以上,且投訴分類可在1秒內自動完成。各類投訴智能分類準確率如表2所示。

表2 各類投訴智能分類準確率

通過系統實際運行,該方法能有效提升投訴分類準確性、提升投訴處理效率。相比該方案部署前,解決人工分類效率低、準確率不高的問題,投訴分類準確率從原來人工分類的50%提升至90%以上;解決投訴工單分類不準無法準確直達處理單位問題,大幅減少工單流轉及處理時長,投訴工單處理耗時從原來人工處理、流轉的30分鐘/單下降到5分鐘/單;通過智能提取升級投訴意向,提高相關投訴工單處理優先級,提升用戶滿意度。

4 總結

本文針對通信投訴處理流程中人工難以在短時間內根據大量投訴描述文字進行投訴準確分類及投訴工單準確派發的痛點,提出了一種基于BERT的通信投訴智能處理方法。該方法運用BERT模型完成投訴關鍵信息識別和智能分類,實現投訴智能定界和工單準確派送,能有效提升投訴分類準確性、提升投訴處理效率,同時自動識別有升級意向投訴提升處理優先級。

本文基于BERT的智能投訴處理方法對標注數據數量要求較少、對訓練資源和輪次要求較少,具有一定的推廣意義,但算法在標注數據方法及分類準確率提升上仍存在不少可優化之處,接下來將進一步研究提升。

猜你喜歡
工單語句關鍵
硝酸甘油,用對是關鍵
基于量化考核的基層班組管理系統的設計與應用
基于transformer的工單智能判責方法研究
高考考好是關鍵
重點:語句銜接
基于HANA的工單備件采購聯合報表的研究與實現
電力95598熱線全業務集中后的工單預警機制
如何搞定語句銜接題
生意無大小,關鍵是怎么做?
生意無大小,關鍵是怎么做?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合