?

風電檢修語音記錄轉譯文本的糾錯技術研究

2023-03-06 09:46運佳恩高永兵
智能城市 2023年12期
關鍵詞:掩碼語音錯誤

運佳恩 高永兵*

(內蒙古科技大學信息工程學院,內蒙古 包頭 014010)

隨著風電行業的快速發展,風電自動檢修服務不斷優化,風電自動檢修技術也在不斷進步和完善。在風電自動檢修系統中,員工可以采用便攜式設備取代錄音、紙質記錄等方式,可為工作人員提供便利,提高工作效率,降低某些安全隱患。風電自動檢修系統需要語音轉文字和文本糾錯技術提高系統的識別和理解能力,從而提高系統的自動化程度和準確性的理解和分析能力,保證自動檢修系統的高效運行。因此,為了確保風電自動檢修系統的準確性和可靠性,必須解決方言和專業詞匯混雜使用的問題。語音轉文字和文本糾錯的目的就是通過技術手段對口音和專業術語進行識別和糾錯,提高系統的準確性和可靠性,減少錯誤,提高系統的智能化水平。風電自動檢修系統能夠更準確、高效地進行檢修工作,提高風電設備的安全性和穩定性。因為要修改的字不經常使用,N-gram[1]模式并不適用該主題。BERT[2]中已有的Mask Language[3]模式可以用于文字校正,但該算法采用了對文字進行無規則遮擋的模式,導致無法精確地進行訓練。

1 相關技術概述

1.1 語音識別原理

作為計算機語言學中一個交叉學科的分支,語音辨識是語言學、計算機科學、電子工程學等學科的結合,發展成了一種能夠將語言的辨識和轉換為文字的技術。語音識別實質上就是讓機器把人說出來的話轉化為可以被機器所理解的信息和數據,通過對語音數據進行加工、整理、聚類等處理,得到相應的模板。

語音識別原理如圖1所示。

圖1 語音識別原理

近年來,深度和點對點的學習在各種類型的工作中都顯示出了較強的提取特性,使語音的識別精度大幅度提升。ASR[4]技術也逐漸被應用于各種場合,并逐漸受到重視。

1.2 文本糾錯原理

文本糾錯技術可以分為兩大類別,即基于規則和基于統計的方法?;谝巹t的方法需要手動編寫規則檢測和糾正文本中的錯誤,如正則表達式或規則庫,但需要大量的人力和時間編寫規則,且很難覆蓋所有的錯誤類型?;诮y計的方法則利用大規模的語料庫訓練模型,以自動檢測和糾正文本中的錯誤,通常包括訓練語言模型和錯誤模型兩個步驟。例如,基于統計的方法可以使用N-gram模型或神經網絡模型[5]檢測和糾正錯誤,具有自適應不同文本領域和風格的優點。

1.3 Transformer原理簡述

Transformer[6]的雙向編碼器從2018年年底被推出后就備受矚目,成為Word2Vec[7]的替代品,在多個方面的準確率都得到了極大提高,是近幾年自殘差網絡突破較大的技術之一。文本糾錯通常使用Transformer和雙向模型,是因為這些模型在處理文本序列任務時表現出色。

雙向模型也是文本糾錯任務中常用的模型,使用雙向循環神經網絡(BiRNN)[8]學習序列中上下文的信息,其中循環神經網絡可以分別從序列的前向和后向方向對序列進行處理。雙向建模方法能夠更好地利用序列上下文信息,從而在文本糾錯任務中具有更好的表現。

1.4 BERT原理簡述

BERT是一種預先培訓的模式,其意義在于通過對海量未加標記的資料進行無監督訓練,獲取包括語言、句法、詞義等在內的海量的先驗性知識,并通過對所學到的知識進行調整。

構造token的embeddings時,需要每個embedding中都包括相關的文字和絕對的定位,以便使每一個embedding都含有文字的順序。在BERT中,各個標記的絕對定位信息通常用position embeddings[9]表達,也就是將一個任意點作為初始值,通過模型訓練獲得一個含有定位的區域。通常使用segment embedding指示下一步Sentence預設工作的各個token的語句。選擇BERT模式時,通常會把一個詞用3種embedding結合在一起。

BERT的輸入向量如圖2所示。

圖2 BERT的輸入向量

Token embedding表示字的量化,CLS標記被用來進行分類工作,在其他工作中可以被忽視?!癝EP”標記被用來分隔兩個語句。

Segment embedding表示前和后兩種語句的區別,在進行下一步推理的練習時,用來識別前后的不同語句。

Position embedding由上文可知通過模型訓練得到當前token的位置信息。

2 糾錯模型設計

BERT-BiLSTM-CRF模型是一種基于深度學習的序列標注模型,主要用于文本糾錯任務,結合了BERT預訓練模型、雙向LSTM(BiLSTM)[10]和條件隨機場(CRF)[11]3種不同的模型,以提高文本糾錯的準確性和效率。BERT模型提供了上下文信息的豐富表示,BiLSTM模型可以更好地捕捉序列信息的前后依賴關系,而CRF模型可以在全局上對標簽進行約束,從而避免局部最優解。因此,BERTBiLSTM-CRF模型可以更準確地識別文本中的錯誤,并進行適當糾正。

2.1 針對性掩碼策略

掩碼語言模型的本質是一種具有雙向的自注意力和遮蔽機制的Transformer編碼器,該譯碼者可以在各個層次上對語境進行雙向表達。

錯誤詞主要出現在專業詞的部分,指的是因為發音問題、詞匯生疏而無法辨認的單詞,也就是在語音辨識模組中出現的失誤。在發音模組中,正確單詞的標注主要根據語音辨識的語句與人工聆聽的語句進行對比而得出。

BERT中的掩碼語言模型(MLM)[12]機制原本可以修正文字,調整掩碼方法后,把模糊的錯誤分為3種,即專業詞錯誤、專用詞雜糅、專業詞切割。

專業詞錯誤標注如表1所示。

表1 專業詞錯誤標注

2.2 檢錯階段

BERT-BiLSTM-CRF是一個將CRF與BERT模式相融合的綜合模式。在獲得一個待測的基因時,把該序列導入BERT預培訓模式,獲得與被測序列同樣長的新序列,該序列由原來的文字形式轉化成矢量形式,且每一矢量都含有大量的語義,把新的序列加入BiLSTM中,給新的順序加上前后兩種不同的順序,在CRF層中加入一個新的標記,對所預測的標記加入一定限制,以確保標記的正確性。該模式對3種不同的針對性錯誤(專業詞錯誤、專業詞雜糅、專業詞切割)進行了分類。

BERT-BiLSTM-CRF模型架構如圖3所示。

圖3 BERT-BiLSTM-CRF模型架構

2.2.1 BERT層

待檢測的中文文本序用W={w1,w2,…,wn}表達。把這些輸入順序與BERT模式相匹配,在BERT中產生3個單詞(字符矢量、句子矢量和位置矢量),把3個單詞嵌套在一起,形成BERT的輸入順序X={x1,x2,…,xn}。BERT的預習模型能夠有效地利用詞語的前后兩邊的信息,從而獲得更好的詞匯分配特征[8]。

2.2.2 BiLSTM層

中文的錯誤校正效果與語境的關系存在某種關系,所以需要將語境的相關知識引入序列。在BERT的輸出順序X={x1,x2,…,xn}后,將其添加到LSTM的兩個模式。第一個LSTM是正向流動,token隱藏狀態與上一個token隱藏狀態和本token值有關,得到隱層序列H={h1,h2,…,hn}中,h'i的值由h'i+1的值和xi的值計算得到,隱層序列H包含了前向token的信息。第二個LSTM與第一個LSTM形式相同,只是從前向變成了后向輸入,因此隱層序列H'={h'1,h'2,…,h'n}中,h'i的值由h'i+1的值和xi的值計算得到,隱層序列H'包含了后向token的信息。將前向隱層序列H和后向的隱層序列H'直接拼接在一起,就得到了同時包含前向信息和后向信息的序列Y={y1,y2,…,yn},其 中yi=[hi,h'i]。BiLSTM層最終的輸出由包含過去的信息和包含將來的信息共同組成。

2.2.3 CRF層

CRF的輸出為BERT和BiLSTM兩層的訓練后的序列Y,在此輸入順序上,根據機組培訓模式,生成對應該輸入順序的標記順序L,并從一個特定標記集合選擇各個標記L。

將CRF的概念引入該模式。參照常用的順序標記方法,將CRF層置于神經網絡結構的末級,將BiLSTM的輸出當作順序的輸入,并對各個字母進行標記。

BERT模式裝載了經過培訓的谷歌chineseL-12H-768A-12的checkpoint。在訓練過程中,僅對BiLSTM-CRF進行了參數的修正。采用4種順序標記模式對每個語句進行了獨立的預測,根據方程式進行判定:

2.3 糾錯階段

在BERT的預先培訓工作中,有一種掩碼語言模型是為了在含有mask標記的順序中對mask進行預言。MLM是一個典型的語言建模工作,可以被用來預報遺漏的差錯。本研究采用BERT掩碼的方法對缺失類型的差錯進行校正。針對不同類型的標記,如專業詞錯誤、專業詞雜糅、專業詞切割等,給出了相應的處理方法。

3 實驗設計

在糾錯過程中,利用BERT的掩碼語言模式對誤分類進行了修正,利用BERT的掩碼語言模式和模糊集合的匹配對差錯進行了預測。

3.1 實驗環境及數據

3.1.1 實驗環境

操作系統為Windows,開發語言為Python,開發框架為pycharm。

通過對風力發電機組的維修過程進行分析,篩選和剔除了無用的剩余33 701條錯誤文本,并對50 139條錯誤文本進行熔斷,將兩者的測試集、驗證集和訓練集的數量分別進行1∶1∶8的處理。

3.1.2 實驗數據

本研究還建立了專用詞詞表,通過手工抽取專門詞匯和對其進行了歸類,一種是風力發電行業中使用的專門詞匯,來自《電力術語匯總》的文獻;名詞的出處是《電力術語匯總》,共有972個條目,地名有4 356個,對每條數據進行標注。專業詞錯誤類錯誤,在冗余的位置標注“5”;專業詞雜糅類錯誤,在專業詞雜糅的位置前后加標注“6”,非專業詞錯誤加標注“1”;專業詞切割類錯誤,在錯誤的位置分別標注“7”;非專業詞錯誤類錯誤,在錯誤位置標注“1”。

經過對4 356條數據進行數據清洗、數據構造和數據標注,得到了一套由36 704條數據組成的數據包,其中80%用于培訓,20%用于檢測。將同樣數目的恰當語句也加入測驗集合,以供測試時參考。

3.1.3 評價標準

使用精確率、召回率和F1值對實驗結果進行評估。

文本糾正的精確率為:

3.2 實驗結果

檢錯階段錯誤類型實驗結果如表2所示。

表2 檢錯階段錯誤類型實驗結果

專業類錯誤準確率最高為92.30%,召回率為97.81%,F1值為0.940 4。在后續研究中提高模型的效率,應針對專業詞雜糅類錯誤的識別進行提升。

糾錯階段錯誤類型實驗結果如表3所示。

表3 糾錯階段錯誤類型實驗結果

錯誤類錯誤在糾錯模型中不需要進行任何附加運算,只需要將多余的數據段替換即可,所以在精度召喚和F1數值方面,與誤差檢測模式的誤差并無差別。

4 結語

本研究在對標準文檔進行學習和研究的基礎上,提出了一種以BERT為基礎的標準文檔錯誤校正模式。該模式將故障檢測和糾正兩個環節結合,可顯著提高風力維修話音錄音翻譯中的文字錯誤校正效率。在錯誤檢測方面,采用BERT-BiLSTMCRF模型進行錯誤檢測,其中BERT層補充語義,BiLSTM提取背景信息,CRF規范化文字標記。通過3個層次的構造,可以獲得包含正確和不正確文字標記的相應順序標記。利用名稱本體辨識技術對序列中的實體進行識別,并根據其與本體之間的聯系來決定標記的處理方式,包括保留或刪除。誤差校正采用mask代替不正確或遺漏的錯誤,在BERT的遮蔽和模糊集合比對相結合的基礎上,估計出現的錯位或遺漏的缺失標記,并獲得多個候選語句。

猜你喜歡
掩碼語音錯誤
在錯誤中成長
魔力語音
基于MATLAB的語音信號處理
低面積復雜度AES低熵掩碼方案的研究
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
基于布爾異或掩碼轉算術加法掩碼的安全設計*
基于掩碼的區域增長相位解纏方法
不犯同樣錯誤
基于掩碼的AES算法抗二階DPA攻擊方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合