?

基于統計方法從文本中抽取分詞詞典

2020-04-14 04:54黃超
電腦知識與技術 2020年4期
關鍵詞:機器翻譯分詞詞典

摘要:常見的機器翻譯方法有兩種,一種是已經發展得比較完善的統計機器翻譯,另一種是出現不久的神經機器翻譯。這兩種翻譯方式首先都需要將文本劃分成詞或短語,對于一些語種,如中文,詞并不是明顯分開的,必須要分詞。分詞的時候,需要使用詞典,通常詞典是人工生成人工添加。本文提出了一種方式,可以從復數文本中自動提取分詞詞典。

關鍵詞:機器翻譯;分詞;詞典

中圖分類號:TP393

文獻標識碼:A

文章編號:1009-3044(2020)04-0213-02

收稿日期:2019-10-15

基金項目:本文工作得到國家重點研發計劃(2017YFB0802300)資助作者簡介:黃超,男,碩士研究生,主要研究方向為信息安全。

Extracting Word Segmentation Dictionary from Text Based on Statistical Method

HUANG Chao

(School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)

Abstract:There are two common methods of machine translation,one is the statistical machine translation that has been developed relatively well,and the other is the neural machine translation that appears soon.First of all,both of these translation methods need to segment the text into words or phrases.For some languages,such as Chinese,the words are not clearly segmented so the text must be segmented into words first.W hen segmenting text into words,it is necessary to use a dictionary that is usually generated and added manually.This paper proposes a way to automatically extract word segmentation dictionary from plural text.

Key words:machine translation;word segmentation;dictionary

隨著互聯網的發展,機器翻譯在各行各業中都變得越來越重要。人們在生產生活中往往會查找一些外文的資料,這時就需要機器翻譯來幫助人們翻譯外文資料。為了提高翻譯的準確度和流暢度,國內外各個研究機構都對機器翻譯進行過非常深入的研究?,F在,機器翻譯方法主要有兩種,一種是統計機器翻譯,這種翻譯方式是基于統計模型,將一個短語翻譯成另一種語言中含義最為接近的短語[1]。另一種就是神經機器翻譯,這是一種出現不久的翻譯方法,基于神經網絡[2-4]。相比于統計機器翻譯,神經機器翻譯可以更多地考慮語法和語義對翻譯影響,從而獲得更好的翻譯準確度。

以上兩種翻譯方法,首先都要將文本劃分成單詞或短語,才能進行接下來的翻譯步驟。對于一些語種,,如英文,其單詞是自然劃分的。而對于另一些語種,如中文,其單詞不是自然劃分的,所以在翻譯之前需要進行分詞?,F在已經有比較成熟的中文分詞工具,如結巴分詞。這些分詞工具都需要根據詞庫對文本進行劃分,而現在的詞庫都是人為生成人為添加的。

本文將介紹一種基于統計方法的從復數文本中抽取分詞詞典的方法,并驗證該方法的可行性。由于現階段沒有標準可以評價一個詞典優異性,所以本文的實驗結果更多地依據經驗。

1 詞典抽取

1.1 數據預處理

中文和英文不同,在很多字符集中,英文的ASCII碼是-致的,而中文的ASCII碼往往是不一致的,所以首先要統一字符集。在本文中,使用GBK作為統一的字符集。中文有簡體和繁體,同一個字的簡體和繁體的ASCII碼是不一樣的,所以,在預處理時,本文將所有的中文都轉換成簡體。

1.2 數據統計

本文提出的方法,是統計一個字之后接下來的字的個數。在統計時,需要將無效的字符除去。無效的字符有這幾類。一是ASCI碼大于0的字符,在GBK編碼中,所有中文字符的ASCII碼都小于0。二是中文標點符號,在GBK編碼中,中文標點符號字符的ASCII碼也小于0,但是這不是有效的字符,必須除去。三是以GBK編碼表示的數字和希臘字母等,去除的原因和中文標點相同。在去除上述字符的同時,也將其作為一個句子的分割。

1.3 提取詞典

在做完統計之后,就可以進行詞典的提取。統計的結果中,一個字之后會有很多不同的字,而且這些字出現的次數也不相同。這里有一個經驗思路,即如果一個字A和另一個字B組成一個有意義詞,那么A后面跟著的字中B出現的次數就很高,反之次數就低。所以只需要找出次數多的字即可。

2 實驗

2.1 實驗設置

本文只針對中文,所以數據是中文數據,其來源是wiki百科。從wiki百科獲得的原始數據都是utf-8編碼,并且繁簡混合,所以對其做預處理操作。做完預處理后,進行效果驗證。

2.2 效果驗證

本文使用MySQL數據庫存儲統計結果。MySQL數據庫提供了非常豐富的數據處理函數,例如可以根據字進行分組,可以求一組數的最大值,可以對數據進行排序,這些有助于詞典抽取。

下表是“臺”字之后的字及其次數,由于數量較多,所以選擇了其中部分數據。

從表格中可以看出,“灣”和“北”出現的次數遠遠超過其他的字,說明“臺灣”和“臺北”是兩個有意義的詞。

下表是“町”字之后的字及其出現次數。

從表中可以看出,“町”字后的字出現的次數都比較少,而且分布非常均勻,可以判斷“町”無法和其他字組成一個有意義

的詞。

3 總結和展望

本文提出一個基于統計方法的從復數文本中提取字典的方法。這個方法是一個全新的方法,也具有一定的可行性,不過其結果并不理想,還需要進行更深入的研究。

本文從wiki百科中獲得的數據其實并不多,這也影響了實驗的效果。同時由于沒有一個標準來評價詞典的效果,所以最后的評價更多地需要通過經驗,這也是一個不足。

接下來需要修改模型,進行更多的實驗。而且不能只考慮兩個字的詞,還需要考慮三個字、四個字的詞。通過更加深入的研究,以期能獲得更理想的結果。

參考文獻:

[1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]/Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguisticson Human Language Technology一NAACL '03,May 27-June 1,2003.Edmonton,Canada.Morristown,NJ,USA:Association for Computational Linguistics,2003:48-54.

[2]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.

[3]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[J].arXiv preprint arXiv:1705.03122,2017.

[4]Sutskever I,Vinyals 0,le Q.Sequence to sequence learning

with neural networks[J].Advances in Neural Information Processing Systems,2014:3104-3112.

[通聯編輯:唐一東]

猜你喜歡
機器翻譯分詞詞典
分詞在英語教學中的妙用
評《現代漢語詞典》(第6版)
詞典例證翻譯標準探索
互聯網+新時代下人機翻譯模式研究
“語聯網+行業” 助力中國偉大復興
《胡言詞典》(合集版)刊行
論英語不定式和-ing分詞的語義傳承
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合