?

基于機器輔助的高校英語專有名詞自動翻譯研究*

2022-11-28 09:28趙元
自動化技術與應用 2022年10期
關鍵詞:語料庫檢索準確率

趙元

(陜西中醫藥大學外語學院,陜西 咸陽 712046)

1 引言

互聯網技術的迅速普及,為機器翻譯提供了發展平臺,實時為用戶提供在線翻譯,可操作性和實用性較強。因此,研究機器輔助自動翻譯方法,相互轉換輸入語言,為用戶提供滿意的翻譯結果?,F階段,國外研究機器翻譯起步較早,英美率先提出利用計算機進行翻譯的想法,伴隨近代計算機技術的進步,人們對機器翻譯本身的應用背景、目標等有了更加準確的認識。國內機器翻譯的研究從50年代開始,多家大學和研究機構先后開發出俄漢、英漢、漢英、日漢、漢日等機器翻譯系統。文獻[1]采用DFMapper 作為機器輔助翻譯工作,利用SQL 解析器和語義概念樹,將其轉換為正確的HiveQL 語句,但該方法認為所有短語的語義匹配概率相等,導致數據召回率較低。文獻[2]采用知識數據庫管理思想,構建由校正單元、翻譯單元、管理單元、收發單元組成的系統架框,輔助英語翻譯,但該方法對單元功能性分析不全面,導致翻譯準確率較低。文獻[3]分析翻譯內容的語義本體結構,構建句子、短語、單詞的智能翻譯語料庫實現翻譯智能化,但該方法篩選的語義信息匹配程度不高,數據召回率同樣較低。針對以上問題,設計基于機器輔助的高校英語專有名詞自動翻譯方法,匹配用戶輸入名詞和語料庫檢索名詞語義,優化英語名詞翻譯的召回率和準確率。

2 機器輔助的高校英語專有名詞自動翻譯方法

2.1 英語平行語料庫構建

構建大數量、高質量的英語平行語料庫,為機器輔助提供大量語料。將多種格式的文件,都轉化為doc 格式。將英語專有名詞作為文本向量包含的特征項,令名詞的相對詞頻表示向量分量。計算文本向量中特征項的權重,第i個專有名詞的逆文獻頻率hi計算公式為:

其中mi為含有名詞的文本數目,M為文本總數。名詞i在文本j中的初始頻率ki,j計算公式為:

其中li,j為名詞i在文本j中的標準化頻率,max(li,j)為i在j中出現的所有次數。名詞i在文本j中的權重wi,j計算公式為:

將權重最大的名詞作為特征串,得到名詞之間的語義相似度。將名詞序列看作一個字符串,統計兩個字符串的公共子串個數。計算名詞i語法相似度Ki,公式為:

其中a為公共子串個數,bi、ci分別為任意兩個文本中名詞序列的名詞個數[4]。提取對齊名詞,導入名詞至數據庫,完成英語平行語料庫的構建。

2.2 構建英語專有名詞語義模型

構建語義模型,匹配語義關聯的用戶輸入名詞、語料庫中的檢索名詞。通過語義分割,實現語料庫檢索名詞的內部關聯[5]。

將專有名詞作為詞向量,把名詞總數作為詞向量維度,按順序編入名詞至詞向量中,使名詞對應詞向量的維度值為1,其余維度為0[6]。設用戶輸入的名詞序列為R,機器翻譯在語料庫中檢索的名詞序列為L,R和L的關聯系數O(R,L)計算公式為:

其中m、n分別為R序列和L序列對應的詞向量,Hmax為序列中對應詞向量的余弦相似度最大值,d為放大系數,設置系數的限值范圍為[-1,1],用于詞向量間余弦相似度的調整[7]。引入字符匹配算子,計算R和L映射后的名詞語義關聯程度,公式為:

其中D(R,L)為輸入名詞序列和檢索名詞序列的編輯距離,u1、u2分別為關聯系數和編輯距離的相對權重,r為詞向量序列的字符匹配算子。通過公式(6),進一步篩選與用戶輸入名詞關聯程度高的詞向量。根據篩選后的所有語料庫檢索名詞集合z,獲得用戶輸入名詞的相關性參數集合B(R),表達式為:

其中Sz為集合z的評價集,G(M)為評價集實數M的整算子,ez為集合z的語義分布,U為評價集包含元素個數提取B(R)的二元語義信息,立二元語義相關的概念樹,完成英語專有名詞語義模型的構建。

2.3 選取語義最優匹配譯文組合

優化英語專有名詞翻譯算法,組合用戶輸入名詞、語料庫檢索名詞相匹配的語義特征,輸出英語專有名詞譯文。建立名詞語義匹配的評價體系。計算第x個組合的距離相對貼近度Cx,公式為:

其中Ix為組合x二元語義信息的符號轉移值,maxSx為組合x二元語義信息的最大關聯程度。譯文組合x的語義相對貼近度Zx計算公式為:

其中W為語義模型對名詞語義匹配的決策函數,f1、f2分別為組合中輸入名詞和檢索名詞的字符串長度。在此基礎上,獲得輔助名詞和檢索名詞的概念集。譯文組合調整的翻譯規則函數Q,計算公式為:

其中E(L)、E(T)分別為檢索名詞、輔助名詞交互信息的交互系數,g為交互特征的語義關聯程度。為貼近度和翻譯規則函數分配評價權系數,計算名詞語義匹配的最終評價值N為:

3 實驗論證分析

將此次設計方法,與基于微處理器的英語名詞自動翻譯方法、基于規則和統計的英語名詞自動翻譯方法,進行對比實驗,比較英語專有名詞自動翻譯的準確性。

3.1 實驗準備

實驗數據為25000對漢英專有名詞,其中英語專有名詞平均長度為5.12個詞,英語專有名詞平均長度為5.01個詞,語料來自LDCt。將英語專有名詞文件上傳服務器,審核文件通過后,標記目標文件,設置專有名詞的取詞頻率為14KHz,名詞最大長度為900Bit,英語語義和漢語語義的概念集,分別設定為250 個樣本和270 個樣本,作為三種方法的自動翻譯文本。

3.2 實驗結果

3.2.1 數據召回率實驗對比結果

設置名詞語義特征維度為100,改變英語專有名詞的詞匯包大小,比較三種方法的數據召回率,實驗對比結果如下圖所示。

由上圖可知,英語翻譯的數據召回率,整體隨詞匯包大小的增加而增加。設計方法數據召回率分別提高了4.4%和6.8%。將專有名詞語義特征維度作為測試條件,設置詞匯包大小為400Gibt,統計不同特征維度下的召回率,實驗對比結果如下圖所示。

由上圖可知,數據召回率隨語義特征維度的增加,整體呈先增加后減小的變化。設計方法數據召回率分別提高了7.0%和8.5%,提高了英語專有名詞翻譯的準確性。

3.2.2 翻譯準確率實驗對比結果

比較三種方法英語專有名詞翻譯的準確率,不同詞匯包大小下的實驗對比結果如下圖所示。

由上圖可知,詞匯包大于300Gibt 時,設計方法翻譯準確率增長速率迅速提升,準確率與另兩種方法相差較大。設計方法翻譯準確率分別提高了0.9%和2.2%。不同語義特征維度下的翻譯準確率實驗結果如4圖所示。

由圖4可知,專有名詞語義特征維度增加時,三種方法翻譯準確率也隨之增加,但上升幅度不大。設計方法翻譯準確率分別提高了1.4%和3.5%。

3.2.3 F值實驗對比結果

在前兩組實驗的基礎上,比較三種方法英語翻譯的F值,F值表示召回率與準確率的調和均值,F值計算公式為:

其中r、s分別表示召回率和準確率。不同詞匯包大小下的實驗對比結果如下圖所示。

由上圖可知,專有名詞F值隨詞匯包大小的增加而增加,匹配率增加的上升速率趨于緩慢。針對不同詞匯包大小,設計方法F值分別提高了3.5%和6.4%。

4 結束語

此次研究設計了一種英語專有名詞自動翻譯方法,充分發揮了機器輔助技術優勢,提高了英語專有名詞翻譯的準確性。但此次研究仍存在一定不足,在今后的研究中,會對英語專有名詞文件進行內部解析工作,完善文件解析的核心應用組件,支持多種格式文本的翻譯工作,提高機器輔助翻譯的兼容性。

猜你喜歡
語料庫檢索準確率
基于語料庫的清末民初日源外來詞漢化研究
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
《語料庫翻譯文體學》評介
瑞典專利數據庫的檢索技巧
2019年第4-6期便捷檢索目錄
英國知識產權局商標數據庫信息檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合