?

適用于報社自動校對的中文分詞技術方案研究

2018-07-18 17:52李釗熊威

智富時代 2018年5期

關鍵詞：評測分詞例句

李釗熊威

【摘要】報社校對軟件使用效果不盡如人意，其中一個重要原因是分詞結果不理想。文章根據報社校對業務特點，在自建文本分詞合理結果集的基礎上，通過對公開分詞工具的評測比較，探索適用于報社自動校對的中文分詞技術方案。這對深入研究報社自動校對系統，提升報社新聞出版質量意義重大。

【關鍵詞】自動校對；中文分詞

一、引言

目前市場上校對軟件有不少，采用的自動校對技術方法都是在中文分詞的基礎上，進行分析糾錯。分詞結果不理想，校對效果自然不會好。所以提升自動校對效果的一個研究方向就是中文分詞研究。

對報社而言，過去以采編為主，內容為王，缺乏技術沉淀。近幾年，隨著融合發展，技術得到了更多重視和投入。但是要完全自主研發分詞技術，依然面臨著很多困難。因此引進第三方技術成果，來幫助實現定制化應用也是報社技術發展的一種方法。只是需要結合校對業務需求選用合適的中文分詞工具。

二、報社校對業務需求

由于語言文字現象的復雜性，新聞文本中的差錯類型多種多樣。根據表現形式，具體分為以下幾類：

⑴文字差錯：這類差錯是新聞出版差錯中最主要的部分，常見的包括錯字、別字、多字、漏字、顛倒字、繁體字等。

⑵詞語差錯：詞語是語言系統中最活躍的組成形式，很多詞語在詞音、詞形、詞義上近似，因此容易混淆誤用。

⑶語法差錯：主要指違反漢語語法結構規律的句子。

⑷政治差錯：在涉及政治敏感問題方面，出現導向性、政策性和技術性錯誤。

⑸標點符號差錯：違反國標《標點符號用法》的標點符號使用錯誤。

⑹數字差錯：違反國標《出版物上數字用法的規定》的數字使用錯誤。

⑺計量單位差錯：違反國標《量和單位》的計量單位使用錯誤。

⑻英文拼寫差錯：英文內容表述中出現的詞語拼寫錯誤。

⑼知識性差錯：內容表述中涉及的有關知識不正確。

校對系統作為一種自動化輔助工具，就是要盡可能識別并糾正以上文字差錯，以幫助校對人員減輕工作量。

三、中文分詞工具選擇

中文分詞技術是自然語言處理中一個重要組成部分，在國內外都有幾十年的研究歷史，也有很多優秀成熟的解決方案。目前公開實用的中文分詞主要可分為學術類、市場類和開源類三種。

⑴學術類：由高校相關院所研發，主要用于科學研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大學Stanford NLP、復旦大學FudanNLP等。目前各高校采用的分詞服務模式不盡相同，有共享版、試用版、付費版等。

⑵市場類：科技企業基于市場需求和技術導向而研發的開放化服務平臺。知名代表有百度AI、騰訊文智、玻森BosonNLP等。目前根據不同開放策略，在線分詞授權有免費和收費兩種方式。

⑶開源類：由個人技術研發并公布在代碼托管平臺上的開源項目。知名代表有paoding、ansj、jieba、Jcseg等。這類分詞都提供開源代碼，只要遵循開源協議，即可免費使用。

基于報社融合發展的技術成本管控和校對業務需要，選擇可免費使用且帶有詞性標注的分詞工具。所以將斯坦福大學Stanford NLP、復旦大學FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg這7款中文分詞工具作為備選對象開展評測工作。

四、分詞工具評測方法

判斷分詞工具是否適用于報社自動校對，主要看分詞效果。采用黃金標準（Golden Standard），編制一份正確合理的分詞結果集作為參考開展評測。由于評測目的是衡量適用度而非準確度，因此重點考慮的是詞語切分邏輯和詞性標注精度。根據新聞出版文本差錯和自動校對常見問題，分詞需要具備以下六個能力維度。

⑴歧義識別：能識別并根據語境正確切分歧義內容。

【例句】

“研究生命令本科生”分詞標準“研究生/名命令/動本科生/名”；

“這塊地面積小”分詞標準“這塊/代詞地/名詞面積/名詞小/形容詞”。

⑵新詞發現：能識別未登錄詞，并準確標注詞性。常見新詞有人名、地名、機構名等。

【例句】

“王總和小麗結婚”分詞標準“王總/人名和/連詞小麗/人名結婚/動詞”；

“吳江西陵印刷廠”分詞標準“吳江西陵印刷廠/機構名”。

⑶短語組合：能識別常用的短語詞組。

【例句】

“這樣的人才能經受住考驗”分詞標準“這樣的人/代詞才能/動詞經受住/動詞考驗/名詞”；

“信息技術應用于教學”分詞標準“信息技術/名詞應用于/動詞教學/名詞”。

⑷數字區分：能正確識別出各種數字組合詞，例如時間詞、數量詞等。

【例句】

“一億人有60%投票”分詞標準“一億/數詞人/名詞有/動詞 60%/數詞投票/動詞”；

“9月20日購入1KG面粉”分詞標準“9月20日/時間詞購入/動詞 1KG/數詞面粉/名詞”。

⑸英文區分：能正確識別出各種英文組合詞，例如中英混合詞、英文單詞、網址、郵箱等。

【例句】

“一件T恤衫”分詞標準“一件/數詞 T恤衫/名詞”；

“官網www.foreo.com”分詞標準“官網/名詞 www.foreo.com/網址”。

⑹錯誤切分：當文本存在錯誤時，切分結果必須要么是散串，要么依然是一個詞。

【例句】

“不原看到”分詞標準“不/副詞原/副詞看到/動詞”；

“新加泊旅游”分詞標準“新加泊/名詞旅游/動詞”。

分詞效果評測指標包括召回率（Recall）、準確率（Precision）、F值（F-mesure）和錯誤率（Error Rate），以下分別簡記為R、P、F和ER。

定義：N為黃金標準切分詞語數，e為分詞錯誤標注詞語數，c為分詞正確標注詞語數，則以上指標計算公式如下：

除了分詞效果，評測中文分詞工具的適用度還要考慮并發性。并發性決定自動校對運算性能，主要看接口并發調用的限制和方法。

五、評測結論

編制一份涵蓋六個維度共計2000個例句的分詞結果測試集，對7個備選中文分詞工具進行評測，評測結果如下：

從結果可以看出，適用于報社自動校對效果最理想的中文分詞工具是百度AI和玻森BosonNLP，性價比最高的是ansj。

在實際應用中，可以采取多分詞混合使用的技術解決方案。在語料訓練上使用百度AI和玻森BosonNLP，在校對算法上使用ansj。另外根據自動校對需要，還可以對開源分詞代碼進行修改和優化。至于如何進行開源分詞二次開發則有待下一步研究。

【參考文獻】

[1]宋柔.計算機輔助漢語校對系統[J].當代語言學，2001，01，45～54.

[2]石敏.中文文本自動校對系統[D].江蘇科技大學，2015.

[3]楊爾弘，方瑩，劉冬明，喬羽.漢語自動分詞和詞性標注評測[J].中文信息學報，2006，01，44～49.

[4]黃翼彪.開源中文分詞器的比較研究[D].鄭州大學，2013.

猜你喜歡

評測分詞例句

次時代主機微軟XSX全方位評測(下)

家庭影院技術(2021年2期)2021-03-29

次時代主機微軟XSX全方位評測(上)

家庭影院技術(2021年1期)2021-03-19

分詞在英語教學中的妙用

校園英語·月末(2021年13期)2021-03-15

攻坡新利器，TOKEN VENTOUS評測

中國自行車(2018年11期)2018-12-03

Canyon Ultimate CF SLX 8.0 DI2評測

中國自行車(2017年1期)2017-04-16

論英語不定式和-ing分詞的語義傳承

外語學刊(2011年3期)2011-01-22

智富時代2018年5期

智富時代的其它文章: 互聯網大數據時代商業銀行發展策略研究; 商業銀行服務創新淺析; 經濟新常態下金融風險防范措施的探討; 簡析我國普惠金融發展的減貧效應; 論農村普惠金融對鄉村振興的支持; 銀行個人信貸業務風險管理的策略研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合