?

跨語言查詢擴展技術研究進展

2018-01-17 09:23蘭慧紅
電子技術與軟件工程 2017年23期
關鍵詞:本體

摘 要 跨語言查詢擴展是改善和提高跨語言信息檢索系統檢索性能的核心技術之一。本文以跨語言查詢擴展技術的發展為主線,將目前的研究方法主要分為三類:基于相關反饋的跨語言查詢擴展、基于潛在語義的跨語言查詢擴展和基于本體的跨語言查詢擴展。對這三類跨語言查詢擴展技術的研究進展進行了詳細的介紹和闡述,并對它們的優缺點進行分析,最后對其發展前景進行展望。

【關鍵詞】跨語言信息檢索 查詢擴展 相關反饋 潛在語義分析 本體

隨著互聯網的迅速發展和用戶需求的提高,單一語種檢索的局限性越來越明顯,人們已不再滿足于在單一語種中進行檢索,而是迫切希望能檢索到更多其它語種的相關信息。由于用戶所掌握語言的有限性和網絡語言的多樣化導致當前用戶從互聯網自由獲取多種語言信息的困難。為了消除語言障礙,將網絡信息資源提供給不同的用戶,跨語言信息檢索應運而生,并已成為突破信息存取語言障礙的關鍵。

跨語言信息檢索(Cross-Language Information Retrieval, CLIR)是指用戶以一種語言檢索出另一種或多種語言信息的方法??缯Z言信息檢索涉及至少兩種以上語言,其關鍵問題是如何實現源語言與目標語言之間翻譯匹配的問題。目前跨語言信息檢索方法主要有查詢翻譯、文檔翻譯、中間語言翻譯和基于同源匹配等四種方法??梢?,翻譯可以說是跨語言信息檢索技術的核心問題,然而,翻譯的歧義性和多義性問題常常導致跨語言信息檢索性能低下。

跨語言查詢擴展(Cross-Language Query Expansion) 是解決跨語言信息檢索中查詢翻譯歧義和多義性問題的核心技術之一,它通過對用戶的初始查詢進行擴展和重構,把與原查詢相關的詞或者與原查詢語義相關的詞添加到原查詢,構建更明確清晰的新查詢,然后再次檢索,以彌補原查詢信息的不足,提高跨語言檢索性能??缯Z言查詢擴展按其發生的先后,可以分為翻譯前查詢擴展、翻譯后查詢擴展和結合翻譯前翻譯后查詢擴展三種。與單語言查詢擴展類似,跨語言查詢擴展詞的來源主要有三種:一是來自于初檢結果相關文檔;二是基于語料庫的方法;三是利用聚類技術或文本挖掘技術從文檔集中獲取查詢擴展詞。目前跨語言查詢擴展研究主要集中在基于相關反饋、基于潛在語義和基于本體的方法。本文主要對這三類跨語言查詢擴展技術的研究進展進行詳細的介紹和闡述,以期對感興趣的同行有一定的參考作用。

1 基于相關反饋的跨語言查詢擴展

相關反饋是一種查詢重構技術,其在跨語言信息檢索過程中利用跨語言初檢結果的前列文檔作為擴展詞的來源,實現跨語言查詢擴展,然后再進行二次檢索。相關反饋技術按照用戶是否參與可分為用戶相關反饋(也稱為交互式相關反饋)和偽相關反饋(也稱為自動相關反饋)。

1.1 用戶相關反饋

基于用戶相關反饋的跨語言查詢擴展融入了用戶的參與,用戶不僅能夠對初檢結果文檔進行相關性判斷,而且還可以控制和修改查詢。其基本思想是:由用戶對初檢結果的文檔進行相關性判斷,系統根據這些判定重新構建更接近用戶需求的查詢,然后再次檢索文檔。

國內外學者對基于用戶相關反饋的跨語言查詢擴展都作了一些研究,Orengo等[1]基于用戶相關反饋進行了英語-葡萄牙語跨語言查詢擴展實驗,由27位葡萄牙語志愿者對檢索結果列表的前10篇文檔進行相關性判斷,然后再進行跨語言查詢擴展,研究成果表明該方法有效的提高跨語言檢索性能。吳丹[2]將用戶相關反饋應用于跨語言信息檢索全過程,由54位志愿者分別采用三種方法對檢索主題進行跨語言信息檢索并對檢索結果進行相關性判斷與反饋,根據反饋結果進行查詢擴展,實驗結果表明用戶的參與有助于提高查詢準確率,能夠獲得較好的檢索效果。但該方法的主要缺陷是需要大量的用戶參與,給用戶帶來很大的負擔,成本較高。

1.2 偽相關反饋

基于偽相關反饋的跨語言查詢擴展方法不需要用戶參與,完全自動進行,是一種相對簡單實用的自動優化策略,被大量應用于相關反饋實驗中。其基本思想是:通過假定檢索結果列表的前n篇文檔為相關文檔并將其作為擴展詞來源進行查詢擴展,再進行二次檢索。

其典型算法是微軟亞洲研究院提出的兩步偽相關反饋法[3]。該方法首先使用源語言查詢式進行檢索,然后從檢索結果的前n篇文檔中選出出現頻率最高的m個詞作為查詢擴展詞,再用雙語詞典將源語言查詢詞翻譯為目標語言查詢詞進行二次檢索,實驗結果表明該方法能夠較好的提高跨語言檢索性能。但其主要缺點是過分依賴于前n篇文檔的精確度,當檢索到的前n篇文檔與查詢式無關時,會連帶造成擴展偏差。

Paul McNamee[4]以及吳丹等[5]在文獻[3]基礎上對基于偽相關反饋的跨語言查詢擴展進行了深入研究,并對翻譯前查詢擴展、翻譯后查詢擴展以及兩者不同的組合進行了一系列的實驗。吳丹[6]還通過偽相關反饋實驗比較4種跨語言信息檢索查詢翻譯優化技術,取得較好的研究成果。

為了解決翻譯歧義性問題,Abdelghani Bellaachia[7]等結合WordNet和偽相關反饋的方法進行英語-阿拉伯語跨語言查詢擴展研究,通過偽相關反饋獲得候選擴展詞后,利用WordNet對候選擴展詞進行共現檢查,以達到消歧的目的。

近年來,基于主題模型的跨語言偽相關反饋查詢擴展方法也受到了研究者的青睞。王序文等[8-11]先后進行了基于潛在狄利克雷分配主題模型、基于雙語主題模型以及基于弱相關主題對齊的跨語言偽相關反饋查詢擴展進行研究,利用主題層進行相關反饋,減少無關主題的干擾,提高跨語言檢索性能。文獻[12-13]利用主題模型對相關文檔的主題進行劃分,并將其用于偽相關反饋查詢擴展詞的選取,提高跨語言檢索準確率。

2 基于潛在語義的跨語言查詢擴展

為了解決1.2節中的缺陷,一些學者提出了基于潛在語義的跨語言查詢擴展方法。其基本思想是:利用潛在語義分析技術建立不同語言之間的對應關系,然后從擴展雙語文本集合中找出與原查詢相關的目標語言特征詞作為查詢擴展詞,實現跨語言查詢擴展。endprint

潛在語義分析法是由S.T.Dumais[14]等人提出的,它假設文本集中詞與詞、詞與文本、文本與文本之間存在著某種潛在語義結構,通過統計計算的方法對文本集進行分析,提取出這種潛在的語義信息,從而達到消除詞之間的相關性,簡化文本向量的目的。他們將潛在語義索引(Latent Semantic Indexing,LSI)模型應用于法語-英語跨語言信息檢索中,利用奇異值分解技術對雙語檢索詞-文檔關聯矩陣進行奇異值分解,構造出法-英雙語潛在語義空間,實現無需翻譯的跨語言查詢擴展,實驗結果表明該方法能夠獲得較好的檢索結果。

國內學者對基于潛在語義的跨語言查詢擴展也進行了一系列的研究。閉劍婷等[15]結合文本聚類和潛在語義分析的方法進行了中英跨語言查詢擴展研究,利用k-means聚類提高擴展文本集合的精度,并用潛在語義分析實現無需翻譯的跨語言查詢擴展,提高查詢準確率。魏露等[16]對文獻[15]進行改進,采用奇異值分解和非負矩陣分解相結合的方法建立雙語空間,實現查詢擴展優化,改善跨語言檢索性能。寧健等[17]利用改進的潛在語義分析方法實現生物醫學雙語摘要跨語言信息檢索,實驗結果表明該方法能夠提高跨語言檢索的準確率。羅遠勝等[18]通過雙語平行語料庫構造每種語言的潛在語義空間,提取不同語言之間的語義對信息,改善和提高跨語言檢索性能。郭文等[19]把語義詞典和馬爾可夫隨機域的潛在語義擴展相結合,將查詢詞的近義詞、同義詞、上位詞和潛在語義相關詞作為查詢擴展詞進行查詢擴展,較好地解決跨語言信息檢索翻譯歧義性問題,改善檢索性能。

基于潛在語義的跨語言查詢擴展的缺點是:實驗所需的雙語訓練文檔較難獲得,奇異值分解技術的計算所花費的時間較長。

3 基于本體的跨語言查詢擴展

本體是對概念及概念之間關系規范化、明確化、形式化、可共享的一種描述,其目標是捕獲相關領域知識中詞與詞之間相互關系的明確定義?;诒倔w的跨語言查詢擴展的基本思想是:通過對本體概念的描述,將源語言與目標語言在該概念下進行統一,并根據含義建立雙語映射。當用戶輸入源語言查詢詞時,系統根據本體的概念內涵及概念關系找出對應的目標語言查詢詞,實現跨語言查詢擴展。

王進等[20]利用本體在知識表示和語義描述方面的優勢,提出了一種基于本體的跨語言信息檢索模型,解決查詢在從源語言到目標語言轉換過程中出現的語義損失和曲解等問題,改善跨語言檢索性能。吳芳等[21]提出了一種基于雙語本體的跨語言查詢擴展,利用旅游領域本體實現基于概念的智能查詢擴展,取得了較好的效果。

該方法的缺陷是:對語義信息的利用完全依賴于本體庫,因此本體庫的語義完整性將很大程度上決定了跨語言信息檢索性能。

4 結束語

本文以跨語言查詢擴展技術的發展為主線,將目前的研究方法主要分為三類,對這三類研究方法進行了詳細的介紹和闡述,并對它們的優缺點進行分析。由于跨語言查詢擴展受到語詞匹配、翻譯資源類型、翻譯資源質量及語種等問題的影響,跨語言查詢擴展技術的研究將是一個長期的、值得探討的研究課題。用戶是信息需求的主體,如何通過用戶行為更好地提取用戶的查詢語義從而進行跨語言查詢擴展將是未來的一個研究方向。

參考文獻

[1]Orengo V M,Huyck C.Relevance feedback and cross-language information retrieval[J].Information Processing and Management,2006,42(05):1203-1217.

[2]吳丹.交互式跨語言信息檢索中用戶行為研究[J].中國圖書館學報,2012,38(199):78-90.

[3]Gao J F,et a1.TREC-9 CLIR Experiments at MSRCN[C]// Proceedings of the 9th Text Retrieval Evaluation Conference,2001:343-353.

[4]McNamee P,Mayfield J.Comparing cross-language query expansion techniques by degrading translation resources[C].Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002:159-166.

[5]吳丹,何大慶,王惠臨.基于偽相關反饋的跨語言查詢擴展[J].情報學報,2010,29(02):232-239.

[6]吳丹,何大慶,王惠臨.一種基于相關反饋的跨語言信息檢索查詢翻譯優化技術研究[J].情報學報,2012,31(04):398-406.

[7]Abdelghani Bellaachia and Ghita AmorTijani.Enhanced Query Expansion in English-Arabic CLIR[C]//Proc of the 19th IEEE International Conference on Database and Expert Systems Application,IEEE Computer Society Washington,DC,USA,2008.

[8]Wang X W,Zhang Q,Wang X J,et a1. LDA Based PSEUDO Relevance Feedback for Cross Language Information Retrieval[C].Proceedings of the 2nd International Conference on Cloud Computing and Intelligence Systems.IEEE,2012.endprint

[9]Wang X W,Wang X J,Zhang Q,et al.A Web-Based CLIR System with Cross-Lingual Topical Pseudo Relevance Feedback[C].Proceedings of the 4th International Conference on Conference and Labs of the Evaluation Forum (CLEF) Initiative,ValenciaSpain.2013.

[10]王序文,王小捷,孫月萍.雙語主題跨語言偽相關反饋[J].北京郵電大學學報,2013,36(04):81-84.

[11]Wang X W,Zhang Q,Wang X J,et al.Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment[C].Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation Shanghai,China.2015:529-534.

[12]張博,張斌,高克寧.一種用于查詢擴展詞選取的主題模型[J].東北大學學報(自然科學版),2013,34(03):348-350.

[13]高璐.基于主題模型的藏漢跨語言信息檢索查詢擴展研究[D].北京:中央民族大學,2017.

[14]Dumais S T,Letsche T A,Littman M L,et al.Automatic cross-language retrieval using latent semantic indexing[J].Aaai Symposium on Cross language Text & Speech Retrieval,1997:51-62.

[15]閉劍婷,蘇一丹.基于潛在語義分析的跨語言查詢擴展方法[J].計算機工程,2009,35(10):49-53.

[16]魏露,李書琴,李偉男等.跨語言查詢擴展優化[J].計算機工程與設計,2014,35(08):2785-2788,2803.

[17]寧健,林鴻飛.基于改進潛在語義分析的跨語言檢索[J].中文信息學報,2010,24(03):105-111.

[18]羅遠勝,王明文,勒中堅等.跨語言信息檢索中的雙語主題相關模型[J].小型微型計算機系統,2013,34(12):2758-2763.

[19]郭文,陳毅東,趙欣.跨語言信息檢索中的查詢擴展[J].心智與計算,2009,3(0l):1-8.

[20]王進,陳恩紅,張振亞等.基于本體的跨語言信息檢索模型[J].中文信息學報,2004,18(03):1-8,60.

[21]吳芳,丁玲,張杰等.跨語言信息檢索中基于本體的查詢擴展模型研究[J].計算機教育,2009(17):122-124.

作者簡介

蘭慧紅(1985-),女,廣西壯族自治區河池市人。碩士學位?,F為廣西教育學院教師,講師。主要研究方向為數據挖掘和信息檢索。

作者單位

廣西教育學院 廣西壯族自治區南寧市 530023endprint

猜你喜歡
本體
Abstracts and Key Words
灰鑄鐵缸體本體抗拉強度提升的研究
眼睛是“本體”
對姜夔自度曲音樂本體的現代解讀
領域本體的查詢擴展和檢索研究
基于本體的機械產品工藝知識表示
本體在產品設計知識管理中的應用研究
《我應該感到自豪才對》的本體性教學內容及啟示
一種基于本體的語義檢索設計與實現
媒介生存:關于新聞史研究本體的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合