?

混合策略的漢維輔助翻譯系統的設計與實現

2017-10-17 00:18解倩倩艾山·吾買爾吐爾根·依布拉音買合木提·買買提卡哈爾江·阿比的熱西提
現代電子技術 2017年20期
關鍵詞:計算機輔助翻譯混合策略信息檢索

解倩倩 艾山·吾買爾 吐爾根·依布拉音 買合木提·買買提 卡哈爾江·阿比的熱西提

摘 要: 采用統計與實例的混合策略和翻譯記憶技術相結合的方法設計并實現漢維計算機輔助翻譯系統。采用該方法的漢維方向BLUE值達0.292 4,0.299 9,0.292 2,維漢方向BLUE值達0.328 4,0.328 6,0.303 1;另外,在面對日益擴展的語料庫的壓力時采用優化的信息檢索技術,并根據同一篇文章有同一個主題的特點采用上下文相關問答技術,均使翻譯準確率和譯者工作效率有了明顯提高。

關鍵詞: 計算機輔助翻譯; 混合策略; 信息檢索; 上下文相關問答

中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)20?0005?05

Abstract: A method of combining the hybrid strategy of statistics and instances with the translation memory technology is adopted to design and implement the Chinese?Uyghur computer?aided translation (CAT) system. Using this method, the Chinese?Uyghur BLUE value reaches 0.292 4, 0.299 9 and 0.292 2 while the Uyghur?Chinese BLUE value reaches 0.328 4, 0.328 6 and 0.303 1. In addition, the optimized information retrieval technology is used facing the pressure of the instantly increased corpus, and the contextual question answering technology is utilized according to the same topic characteristic of the same article. All these technologies make the translation accuracy of the system and the efficiency of translators significantly improved.

Keywords: computer?aided translation; hybrid strategy; information retrieval; contextual question answering

0 引 言

隨著計算機科學與信息技術在人們的生活學習中發揮越來越重要的作用,計算機輔助翻譯軟件以譯者為主、機器翻譯為輔的方式進行工作,此低成本、高效率的方式給譯者和其他人民群眾帶來極大的便利,因此受到越來越多行業的關注。

國際上的計算機輔助翻譯技術的研究成果顯著,而國內CAT軟件不論研究或教學都處于初期階段。20世紀80年代的機器翻譯工具發展迅猛[1],其僅能起到幫助譯者理解原文的目的,不能產生理想的譯文。近年來CAT技術取得不容小覷的成績。CAT軟件以人類為主體,并依靠計算機強大的存儲能力和快速檢索功能。CAT采用翻譯記憶技術可減少譯者的重復勞動,隨著翻譯記憶庫的擴大可使譯文質量逐步提高,不斷累積用戶譯文和用戶習慣最終達到CAT軟件與用戶之間良性循環。

漢維輔助翻譯[2]研究至今,因漢維語言跨度大、語料庫建設單位數量不夠、語料庫規模及質量不盡人意、綜合性研究人員稀缺等問題影響其發展略顯緩慢。但學者仍不斷努力,如劉群對機器翻譯技術及輔助翻譯技術的發展趨勢進行分析并提出自己的設想[3];麥熱哈巴·艾力等對維漢詞語對齊的機器翻譯方法進行研究[4];吳小川等建設的漢維哈柯雙語平行語料庫加工處理系統對漢維CAT系統的發展具有重要作用[5];達瓦·伊德木草等研究基于實例統計翻譯混合策略方法并實現漢維/維漢機器翻譯[6];新疆多語種信息技術實驗室自然語言處理小組和新疆電力信息通信公司合作完成的國家項目[7]采用多種機器翻譯手段實現基于C/S版本的多語種輔助翻譯系統。以上學者的努力與成果也在不斷幫助和激勵后繼之人。

本系統使用基于實例、統計和記憶庫相結合的混合策略方法,具有較高理論價值和經濟價值。在面對日益擴展的語料庫的壓力時采用優化的信息檢索技術,并根據同一篇文章有同一個主題的特點采用上下文相關問答技術,均使翻譯準確率和譯者工作效率有明顯提高。系統采用基于統計、基于實例、基于記憶庫方法的漢維方向BLUE值達0.292 4,0.299 9,0.292 2,維漢方向BLUE值達0.328 4,0.328 6,0.303 1。

1 系統關鍵模塊分析

維吾爾語是一種黏著語、復雜形態語言,語言內容千變萬化、豐富多彩。人們需要運用音系、詞法、句法、語義、語用、語境、認知等綜合知識理解自然語言。而當今計算機的智能化還并未達到人類的智能程度,把一種源語言利用機器翻譯為人類理想的目標語言還需一定的努力。因此現今利用翻譯記憶技術實現計算機輔助翻譯系統是機器翻譯的發展趨勢。本系統是利用統計與實例的方法和翻譯記憶技術設計而成,現今的CAT軟件分類如表1所示。

目前國際上比較著名的CAT軟件有TRANDOS,國內有雅信、朗瑞等。TRANDOS在2008年互聯網調查顯示其市場份額為80%,而這個數據到2014年則下降至70%。其主要原因是近年來大量的CAT軟件的涌現搶占了TRADOS的市場份額。CAT軟件一般具有翻譯記憶、術語庫管理、翻譯項目管理、語料庫加工與應用等一系列功能。本系統的架構圖如圖1所示。endprint

1.1 預處理模塊

在輔助翻譯的預處理階段,系統對用戶上傳的翻譯文本首先識別語言,然后再進行分段、分句等處理。按照XML文件格式的標記,將源語言文件的頁數、段數、行號存入數據庫表中。

1.2 術語管理

術語管理是CAT軟件的主要功能之一,由于每篇文章都包含無數個單詞,因此編輯校對時要重點核對單詞的前后一致性。比如在閱讀譯著時經常出現單詞翻譯不一致,嚴重影響譯文質量,極大地阻礙讀者的理解。為了解決上述困惑,CAT軟件擁有一個術語管理模塊用于規范專業術語,在翻譯時,系統自動識別譯者建立的專業術語庫中對應的術語翻譯?,F階段的翻譯軟件都有術語管理功能,術語庫中的內容可以通過詞典、CAT工具、手工等方式導入,有的軟件可以直接手動或以Excel格式導人,而有的CAT軟件則需要轉化格式才可導人。本系統采用手動和詞典兩種形式管理術語庫。

1.3 翻譯記憶庫

TM技術[8]是CAT的核心技術,系統記憶庫是一個日積月累的本地文件,系統初始化為空,隨著用戶和管理員的持續使用,通過調整、矯正譯文,將原文和譯文導入翻譯記憶庫使翻譯記憶庫的規模不斷擴大,翻譯的準確率也不斷提高,從而建立起更加完善的系統記憶庫。本系統創建記憶庫是以句子或術語為單位,可以在項目翻譯時對譯文不理想的句子、術語、未登錄詞進行翻譯,也可以在記憶庫管理、術語管理功能新建用戶記憶庫或術語,設置源語言和目標語言,將句子、術語及對應譯文等存入系統記憶庫。

1.4 機器翻譯

眾所周知機器翻譯按實現方法可分為基于規則、基于實例、基于統計的方法。

使用基于規則的方法因不同專業、描述粒度日益精細,維護和管理日益艱難,基于規則的機器翻譯出現瓶頸。為了解決這一難題,基于實例的翻譯方法應運而生,它將句子分割為單詞、短語、子句等基本單位,對每個基本單位翻譯時參考例句,將通過類推方法翻譯的基本單位恰當地組成句子。緊隨其后,學者們又提出一種基于統計的機器翻譯方法,其基本單位也是短語,但對其不做任何語法處理,是任意連續的短語,然后根據翻譯模型翻譯每個短語,最后將翻譯為目標語言的短語進行重排序。

現階段,使用混合策略的機器翻譯方法對提高譯文質量有顯著提高。本系統利用實例與統計相結合的方法,構建雙語平行語料庫、雙語詞典,并采用統計機器翻譯技術,對漢維機器翻譯的研究有極大的推動作用。

1.5 信息檢索技術

在面對海量數據時信息檢索技術[9]對檢索結果有重要意義,隨著日益擴展的CAT語料庫,使用優化的檢索技術對翻譯準確率和譯者的工作效率有進一步提高。顯示反饋、隱式反饋和偽相關反饋是三類優化的信息檢索技術,隱式反饋是指利用譯者和CAT系統的交互信息推斷用戶的喜惡,達到優化語料庫檢索結果的目的。

系統主要對譯者的隱式正反饋進行研究和實現。譬如,統計用戶翻譯的領域對其檢索結果的排序具有重要意義,并能進一步提高系統的譯者工作效率和翻譯準確率,優化用戶體驗;統計譯者與好友的交流頻率可推斷譯者感興趣的領域,系統首先判斷好友的翻譯領域,然后在譯者翻譯時將該領域語料庫檢索結果提供給譯者參考,可進一步優化用戶體驗。

1.6 上下文問答

上下文問答作為信息檢索的新技術受到越來越多專家學者的青睞[10],在CAT系統中,同一篇文章描述是同一個主題這點毋庸置疑,據此可以推出結論,譯者在翻譯同一篇文章時,系統對于句對和詞對的翻譯,可以重復使用部分上下文翻譯信息。系統采用此技術可以使系統的翻譯準確率和譯者的工作效率有明顯提高。

2 系統設計與實現

系統采用C#語言,使用SQL Server 2012數據庫,B/S架構,整體結構適合于網絡應用;由于對翻譯質量要求較高,系統使用Web Service技術作為中間接口將翻譯服務放在一個獨立的翻譯服務器上面;使用Bootstrap前端框架,簡介靈活,在手機端也可正常使用;客戶端可以適用于內存大于等于1 GB,2.4 GHz CPU以上配置硬件系統;適用于IE,Chrome等不同的瀏覽器;支持Linux和Windows操作系統;對網絡寬帶的要求適當,提供漢語、維吾爾語等不同的語言版本;支持網絡上的合作翻譯,彼此之間的交流方式簡單、流暢。

2.1 系統流程

將doc,docx,txt等格式的源語言文檔導入CAT系統,對文本進行分句處理(共N句),利用分詞工具從第一個句子開始對每個句子進行分詞,利用TM技術計算句子相似度,如果完全匹配,則直接輸出第i個句子,否則,譯者人工校對第i個句子的譯文,并將該句子的譯文存入翻譯記憶庫,輸出該句子譯文,直至第N個句子譯文翻譯完畢,輸出目標語言文本,最后以doc,docx,txt等格式導出文本文檔。CAT系統流程圖如圖2所示。

2.2 系統功能

本系統的主要功能設計如下:

(1) 具有多語言操作界面,根據維哈柯語言特點實現從右向左顯示和輸入的功能;

(2) 具有實例、詞典和記憶庫的翻譯功能,用戶可根據實際情況選擇機器翻譯方式,提供基于統計的翻譯接口;

(3) 提供自動翻譯和人工交互式翻譯兩種翻譯功能;

(4) 用戶可設置源語言類型、目標語言類型,支持一對多的翻譯模式;

(5) 支持Word,txt等常見文檔的讀寫功能,實現文檔導入、導出和標記等操作;

(6) 支持自定義記憶庫文件、術語庫的創建、維護功能等。

2.3 系統數據庫設計

系統主要數據可以分為單語語料庫、雙語語料庫、術語詞典、系統記憶庫以及軟件系統必要的配置數據等。系統建有項目信息、項目文件、文件段落、文件內容、文件用的記憶庫、用戶項目6個表,如表2、表3所示。另外考慮到數據的安全性和滿足復雜的查詢需求,系統建立用戶項目、項目文件、文件內容、用戶文件列表、句子的項目及文件等視圖;由于存儲過程可以提高程序執行速度、使程序模塊化、減少網絡通信量和保證系統的安全性,系統在刪除臨時翻譯表內容時采用存儲過程設計詳細的數據庫表。endprint

表2屬性依次表示項目編碼(自動增加)、名稱、描述、創建時間、項目的狀態、創建者編碼、項目開始時間、結束時間、最后編輯時間、源語言、目標語言。其中項目的狀態表示為:0是新建、1是活動、2是完成、3是關閉、4是刪除,活動狀態可以轉為關閉狀態。

表3屬性依次為文件編碼(自動增加)、文件名稱、文件類型、文件語言類型、原始文件服務器目錄、開始時間、結束時間、最后編輯時間、項目編碼、源語言、目標語言。其中文件類型為:0是txt文件、1是doc格式文檔、2是docx格式文檔、3是Unkown。

文件段落表屬性依次表示文件中段落編碼、段落所屬文件編碼、用戶編碼。文件內容表屬性依次表示文件中的句子編碼、句子是否文本、需要翻譯的句子原文、翻譯后的句子、句子開始位置、句子結束位置、句子中字符的字體、句子中字符的字體、字體大小、文本對齊方式、句子所屬端編碼。其中句子是否文本:0表示是、1表示否。文件用的記憶庫表屬性依次表示為文件用的記憶庫編碼(自動增加)、文件編碼、記憶庫編碼。用戶項目表屬性依次表示為用戶項目編碼(自動增加)、用戶編碼、項目編碼。

2.4 實驗結果

本文從150萬句的漢維雙語平行語料庫中隨機抽取1 000條分別測試系統漢維和維漢方向的BLUE值,語料來源于新疆多語種信息技術實驗室自然處理小組對新聞、法律、政府文獻、對話等收集整理而得,測試結果如表4、表5所示。

2.5 系統實例展示

以新疆維吾爾自治區人民政府網站上一則新聞題目為《“一帶一路”臺商西部行考察團抵疆考察》的實例展示系統的使用過程。將下載的新聞存入doc文檔,調整新聞的字體段落等格式。首先注冊并登錄CAT系統,新建項目,將整理好的新聞文檔導入系統。

如圖3所示,翻譯界面分為左上、右上、左下、右下四部分。系統自動對文本進行分句處理,左上部分以句子為單位顯示源語言文本,點擊原文一條句子在左下部分顯示該句子的目標語言譯文,其翻譯來源有基于統計、基于實例、基于記憶庫三種方法的譯文,若譯文不理想譯者可點擊重翻譯按鈕校正譯文,也可以點擊使用按鈕引用系統給出的譯文,對于未登錄詞或翻譯不準確的詞語譯者可以在右下角使用添加術語功能,將術語加入術語庫。翻譯結束后,可查看譯文,也可導出目標語言文檔。

3 結 語

本系統由新疆多語種信息技術實驗室自然語言處理小組從2010年開始建立,在全體成員的不懈努力下,各司其職、緊密合作,歷時5年之久,終于在2015年3月面向社會發布,供各界人士免費試用。

在本系統中,譯者對機器翻譯譯文進行校正、刪除,提高譯文正確率。相對于機器翻譯,CAT以人為主體,機器翻譯輔助譯者,可提高譯文質量;與人工翻譯相比,CAT大幅度提高翻譯效率,并降低翻譯成本;因此CAT軟件是機器翻譯和人工翻譯的完美結合。

系統在未來的升級擴展中,將針對多語種擴展、語料庫共享、記憶庫擴充等方面做進一步的研究和開發,從而提供更高的翻譯精確性、可靠性和易操作性。

參考文獻

[1] PHILIPP K. Statistical machine translation [M]. Cambridge: Cambridge University Press, 2009.

[2] 吐爾根·依布拉音,袁保社.新疆少數民族語言文字信息處理研究與應用[J].中文信息學報,2011,25(6):149?156.

[3] 劉群.機器翻譯技術現狀與展望[J].集成技術,2012,1(1):48?54.

[4] 麥熱哈巴·艾力,王志洋,吐爾根·依布拉音.一種提高維吾爾語?漢語詞語對齊的方法研究[J].小型微型計算機系統,2012,33(11):2551?2555.

[5] 吳小川,吐爾根·依布拉音,艾山·吾買爾,等.漢維哈柯雙語平行語料庫加工處理系統的設計與實現[J].電腦知識與技術,2011,7(27):6680?6681.

[6] 達瓦·伊德木草,艾山·吾買爾.實例統計翻譯混合策略的漢民病歷翻譯的研究[J].新疆大學學報(自然科學版),2015(1):68?73.

[7] 尼加提·納吉米,席小剛,馬斌,等.多語種輔助翻譯系統研究與實現[J].電腦知識與技術,2012,8(2):345?350.

[8] 張建平,葉德峰.谷歌譯者工具包輔助下的有色金屬科技論文摘要英譯[J].中國鎢業,2012(5):40?43.

[9] MANNING C D, RAGHAVAN P, SCHUTZE H. An introduction to information retrieval [M]. Cambridge: Cambridge University press, 2009.

[10] 王東升,王石,王衛民,等.基于本體和語義文法的上下文相關問答[J].中文信息學報,2016,30(2):142?152.endprint

猜你喜歡
計算機輔助翻譯混合策略信息檢索
基于博弈混合策略對卷煙質量調研無響應現象的研究
基于連續混合策略對長期蜈蚣博弈的分析①
新形式下計算機輔助翻譯實驗室建設探究
注冊制背景下上市公司與投資者的博弈分析
醫學期刊編輯中文獻信息檢索的應用
論計算機輔助翻譯的智能化趨勢
基于神經網絡的個性化信息檢索模型研究
計算機輔助翻譯工具在WhenYouAreOld翻譯中的應用
教學型大學《信息檢索》公選課的設計與實施
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合