?

查詢意圖自動分類的方法改進探討*

2018-02-07 00:57賀國秀張曉娟
數字圖書館論壇 2018年1期
關鍵詞:類目日志意圖

賀國秀,張曉娟

(1.武漢大學信息檢索與知識挖掘研究所,武漢 430072;2.武漢大學信息管理學院,武漢 430072;3.西南大學計算機與信息科學學院,重慶 400715)

隨著互聯網的蓬勃發展,網絡信息呈現爆炸式增長,以Google、百度和Bing等為代表的搜索引擎成為輔助人們快速獲取信息的主要工具。當前的搜索引擎主要采用基于關鍵詞匹配的技術以及網頁鏈接算法來為用戶返回所需信息[1]。由于用戶提交的查詢一般較短,且自然語言存在模糊性,故無法清晰地表達用戶意圖,使返回結果無法滿足用戶需求。因此,通過識別用戶查詢關鍵詞所包含的意圖(用戶的信息需求、查詢目標和查詢動機等)[2-4],搜索引擎可針對不同意圖的查詢采取不同的處理策略以獲得更好的檢索結果,或通過改變檢索結果布局來方便用戶快速定位查詢目標;同時,搜索引擎和電子商務站點也可通過用戶提交查詢意圖來提供個性化的檢索和推送服務。

查詢意圖識別的主流方法是將其轉化為查詢意圖自動分類,即在給定查詢意圖類別體系的情況下,通過提取特征、訓練分類模型來實現對不同類別查詢意圖的自動分類[3]。綜合已有研究發現,當前查詢意圖自動分類研究存在如下局限:(1)大多采用人工來標記數據集,而受時間和精力限制,人工標注數據集規模有限,故分類模型可獲得的訓練數據規模較小,最終影響訓練所得分類器的自動分類準確度;(2)在選取查詢分類特征時,較少考慮查詢本身包含的豐富語義特征,如查詢詞、詞性特征,以及查詢中詞間依存關系等;(3)查詢意圖自動分類主要依賴線性機器學習模型,因此需要對不同的度量標準和調優參數進行大量研究和實驗?;诖?,本文嘗試分別在數據集標注、特征選取和分類器使用中利用新方法來解決查詢意圖分類研究存在的問題,提出一種標注規則,對已有查詢日志數據進行自動標注。在此基礎上,利用LTP工具提取查詢的句法依賴關系等特征,并將集成學習模型梯度提升樹(Gradient Boost Decision Tree,GBDT)應用到分類模型的訓練。

1 相關研究

綜合已有研究,查詢意圖分類主要包括數據標注、特征提取和分類方法研究三個方面[3]。

(1)查詢意圖數據標注。Broder[5]通過對用戶查詢及AltaVista日志進行分析研究,將用戶查詢意圖分為信息類(I)、導航類(N)與事務類(T)三類。信息類指用戶在互聯網上獲取的信息,無其他交互操作;導航類指用戶的目的為查找某個特定的網址;事務類指用戶想通過查詢獲取互聯網資源或服務。Rose等[6]使用日志分析人為地擴展Broder思想,認為Broder提出的事務類查詢意圖無法包含互聯網所有資源,提出資源類(R)查詢意圖。資源類包括互聯網上除信息類外的任何可獲取的資源。雖然不同類目體系的劃分各有其依據和支持,但Rose等的類目體系最受推崇。Ahituv[7]采用開放式分類目錄(Open Directory Project,ODP)作為主題標簽,建立查詢類別,其中ODP是由人工對互聯網中出現的各類站點的總結分類。張曉娟[4]選定Rose等的類目體系,主要靠人工標注的方法獲取實驗數據,但這種方法成本很高,可獲得的數量卻很小。宋巍[8]采用網頁分類目錄資源,利用本體匹配法對查詢日志數據進行自動標注,其結果過度依賴于分類目錄資源,故泛化能力較差。

(2)查詢意圖特征提取。張森等[9]認為,特征提取的研究工作主要解決如何從用戶簡單的查詢中獲取充分、明確的特征,以此來識別查詢意圖。①基于查詢表達式的特征提取。通過對查詢詞本身包含的詞義[6]、詞性[10]、詞長[9]和在語料庫中的統計信息來識別查詢的潛在意圖,使用各類查詢的一組啟發式特征來區分查詢[11],使用時間和地理等特征來表示查詢。②基于用戶行為的特征提取。用戶行為是用戶對檢索結果反饋的行為,是用戶目標的顯示表達,主要包括用戶交互行為、用戶點擊行為和語境變化等,如Liu等[12]提出利用點擊相關的相互點擊意圖(MCI)和點擊意圖排序(CIR)等作為特征。③隱含語義特征。Mendoza等[13]基于用戶日志利用PLSA提取查詢的隱含主題表達作為特征。然而,由于查詢一般以自然語言顯示,故其語義特征還可由自然語言處理工具進行深入挖掘。

(3)查詢意圖分類方法。Liu[14]和Kanhabua[15]等使用典型的決策樹算法執行分類任務,Ji等[16]通過用戶瀏覽行為的動態數據來預測用戶查詢意圖,Hu等[17]通過把查詢映射到維基百科的現象空間以識別查詢意圖,Feng[18]利用ODP和用戶查詢日志構建用戶興趣模型。高景斌[19]和張楊浩[20]利用線性分類模型支持向量機(Support Vector Machine,SVM)[21]對查詢意圖進行分類。SVM是對邏輯回歸[22]的一種優化,通過尋求結構風險最小化來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下獲得良好統計規律的目的。GBDT作為集成學習算法,通過融合弱分類器來提升分類器性能[23-25]。相比線性分類器參數調優困難的局限性,GBDT可以快速提高模型性能,并在一定程度上避免模型過擬合問題。

2 查詢意圖自動分類方法

在構建標注集方面,本文提出一種基于ODP主題類目體系的自動標注規則,以此獲得大量標注數據;在提取分類特征方面,探索詞之間的句法依賴特征對意圖分類效率的影響。由于集成學習通過構建并結合多個機器學習模型來完成學習任務,可以有效彌補線性分類模型的調優缺陷,所以本文使用集成學習模型中的GBDT作為分類器,對查詢意圖進行識別。本文的整體框架如圖1所示。

圖 1 整體框架

2.1 構建標注規則

本文主要將ODP主題類目體系映射到Rose等的意圖類目體系,利用啟發式和匹配的方法形成標注規則,對查詢日志數據進行自動標注。ODP將網絡中出現的url總結為14個主題,每個主題都包含相應的url,用表示url和topic的對應關系,整個ODP數據集可以表示為“ODP={,,…,}”。其中,ODP的主題結構如表1所示,Rose的查詢意圖類目體系、相關解釋與實例如表2所示。

本文將日志數據中的URL映射到Rose等的意圖類目體系的過程如圖2所示。首先,通過對Rose意圖類目體系的分析發現,導航類的標注規則被確定為“僅包含類似‘www.baidu.com’這樣以‘www.’開頭,以‘.com/.cn/.org’等結尾的url所對應的查詢屬于導航類”。其次,結合兩種方法生成資源類的標注規則。(1)啟發式方法。通過人為對URL的歸納,發現如果url中含有“download”“game”“movie”“music”或“book”等關鍵詞的一般為資源類url,即其對應的用戶查詢屬于資源類。(2)匹配的方法。通過分析,ODP主題中屬于休閑、商業、游戲、計算機和購物的url屬于資源類。所以提取ODP中相應的url,去除“http∶//www.”的開頭,構建匹配列表。如果用戶點擊的url可在匹配列表中找到,則該url對應的查詢為資源類;結合以上分析以及Rose等的意圖類目體系,若用戶點擊的url所對應的用戶意圖不屬于導航類和資源類,則屬于信息類。

表 1 ODP主題類目體系

圖 2 日志數據中URL與Rose意圖類目體系間映射關系

表 2 Rose類目體系、相關解釋與實例

2.2 查詢特征提取

特征提取是用戶查詢意圖分類的關鍵,需要從中獲取充分的特征。本文在選取查詢詞的統計特征(查詢所包含的字長和詞長)與用戶行為特征(用戶點擊url的排名和用戶最終點擊的次數)的基礎上,重點考慮查詢中的語義特征。

本文利用哈爾濱工業大學開發的LTP[26]提取三方面的語義特征集合。(1)查詢分詞特征。本文對查詢進行中文分詞,即將漢字序列切分成詞序列,以介于漢字和句子間的粒度對查詢進行表示。如對于查詢“年輕人住房問題”可以分詞為“年輕人”“住房”和“問題”三個詞。(2)查詢詞性特征。詞性作為對詞的一種泛化,在語音識別、句法分析和信息抽取等任務中有重要作用。本文對每個查詢的分詞結果進行詞性標注,并將詞性作為查詢特征,如查詢“年輕人住房問題”的分詞均為名詞。(3)查詢句法依存關系特征。通過分析語言單位成分間的依存關系,揭示其句法結構特征。如查詢“年輕人住房問題”存在的句法依存關系有“ATT”“ATT”和“HED”,其中“ATT”表示“年輕人”修飾“住房”的定中關系,第二個“ATT”表示“住房”修飾“問題”的定中關系,“HED”表示“問題”為整個句子的核心。

在提取語義特征集合后,本文利用詞袋模型分別對所有的分詞集合、詞性集合和詞間的句法依存關系集合進行表示??紤]特征間的重要性隨其在該查詢中出現的次數而增加,但同時會隨其在整個查詢集合中出現的查詢頻次而減少,故本文引入TF-IDF對每個特征值進行加權,TF表示該特征詞在查詢中出現的頻次,具體計算方法見公式(1)。

其中,ni,j是該特征在查詢中的出現次數,而∑kni,j是在查詢中所有特征詞出現的次數。IDF表示該特征詞在查詢集合中出現的查詢頻次,具體計算方法見公式(2)。

其中,|D|表示查詢集合中的查詢總數,1+|{d∈D:t∈d}|表示查詢集合中出現該特征詞的查詢數。TFIDF表示TF與IDF的乘積,具體計算見公式(3)。

2.3 分類器構造

在3.1節標注規則得到的數據集和3.2節提出的特征集合的基礎上,本文將使用集成學習模型中的GBDT[23-25]作為分類器對查詢意圖進行分類研究。其中,GBDT由多棵決策樹組成,通過投票的方式將所有樹的結論進行累加作為最終答案。原始的提升算法(Boost)為數據集中的每個樣本賦一個權值。每次迭代都對算法決策的準確性進行驗證,增加其中錯誤樣本的權重,減少正確樣本的權重。進行H次迭代后,將會得到H個簡單的分類器,然后將其通過投票的方式集合起來,得到最終的模型。

Gradient Boost與Boost的區別是:每次迭代的目的是減少出現的錯誤,而不是對正確預測樣本和錯誤預測樣本進行加權。通過在誤差減少的梯度方向上建立一個新模型,以迅速得到最優模型。GBDT作為集成模型,相比于線性模型,其優化速度更快,泛化能力更強。

3 實驗

3.1 實驗數據

本文采用搜狗實驗室提供的查詢日志數據[14]進行實驗,數據樣本格式如表3所示。從左到右分別表示訪問時間(time)、用戶匿名ID(user id)、查詢詞(query)、該url在返回結果中的排名與用戶點擊的順序號(result click)和用戶點擊的url。本文使用Graphlab Create包中的SFrame工具對數據進行讀取和初步統計分析,再將數據集隨機分為訓練集(training data)、驗證集(validation data)和測試集(test data),分別占整體數據集的60%、20%和20%。其中,訓練集用來訓練分類模型,驗證集用來選擇最優的分類模型參數,測試集用來評估分類模型的性能。最后基于3個數據集,進行分類器的訓練和評估。

本文通過網絡爬蟲程序自動獲得ODP主題類目數據,所獲得數據集的格式如表4所示。其中,url表示網址,name表示url代表的網址名稱,label表示ODP主題類目的二級主題。

表 3 搜狗查詢日志樣本格式

表 4 ODP數據的相關信息

3.2 標注數據集

在獲得用戶查詢日志數據和ODP數據的基礎上,本文隨機選取查詢日志中的1萬條數據進行實驗?;?.1節提出的標注規則,本文首先通過啟發式的方法,構建啟發式列表[download,book,read,music,movie,software],然后將ODP主題中的休閑、商業、游戲、計算機和購物等主題所包含的二級主題對應的url映射到匹配列表中。

再將上述啟發式列表和匹配列表結合起來,最后得到資源列表。其列表的部分信息為“download,book,read,music,movie,software,52384.com,map.baidu.com,htffund.com”等。被標注數據集的label比例如表5所示,結果顯示,使用標注規則自動標注的數據集和人工標注的數據集相比[4],label比例基本一致,但使用標注規則的好處在于可以迅速獲得大量被標注的數據集。

表 5 基于ODP的最終數據集標注結果

3.3 基準實驗

為了與線性分類模型的效果進行有效對比,本文選擇邏輯回歸(Logistic Regression,LR)和支持向量機作為基準分類器。其中,在使用邏輯回歸時,本文利用隨機梯度下降作為優化器訓練模型,并加入L1和L2規則來防止過擬合;在使用支持向量機時,使用RBF核函數。

3.4 實驗分析

對于邏輯回歸方法,本文首先通過驗證集validation set選擇最優的使用L1規則的懲罰L1 penalty和使用L2規則的懲罰L2 penalty;其次,使用得到的最優超參數,分別比較不同的特征選擇對結果的影響,得到Model1(使用3.2所述的所有特征)和Model2(不使用詞之間的句法依存關系特征);最后,通過比較測試集,得到模型的平均準確率、精準率、召回率和F1值。需指明的是,本文首先訓練Model1,且在訓練該模型時,為了選擇最優的L2 penalty,先保持L1 penalty=0不變,令L2 penalty在0—5以適當的間隔選擇15個有代表性的值進行實驗;再令L2 penalty=1.65不變,使L1 penalty從0—100選擇適當間隔的15個值進行實驗,實驗結果如圖3所示。圖3的實驗結果表明,當L1 penalty=0和L2 penalty=1.65時,獲得最優的分類器,此時的平均準確率為0.68;圖4的實驗結果表明,L1 penalty=10,L2 penalty=1.65時,獲得最優的平均準確率為0.69。

圖 3 L2_penalty對查詢意圖分類平均準確率的影響

圖 4 L1_penalty對查詢意圖分類平均準確率的影響

在訓練Model2時,使用與Model1相同的L1 penalty和L2 penalty,但不考慮詞之間的句法依賴關系特征,再使用測試集分別得到兩個模型的各個指標(平均準確率、精準率、召回率和F1值),其對比的實驗結果如圖5所示??梢钥闯?,當使用邏輯回歸作為分類模型時,利用LTP充分提取查詢的語義特征,可以提高查詢意圖的分類準確率。

支持向量機與邏輯回歸的訓練相同,首先找到最優的防止過擬合的懲罰參數(penalty),然后分別訓練Model1和Model2,并比較這兩個模型的優劣。本文先訓練Model1(選擇不同的懲罰參數),然后比較平均準確率,結果如圖6所示。實驗表明,不同的懲罰參數對性能的影響基本一致,故本文采取默認的penalty=1,并進一步對Model1和Model2的結果進行對比,結果發現充分提取語義特征的分類器明顯優于另一個分類器,如圖7所示。

圖 5 LR中Model1和Model2的查詢意圖分類性能比較

圖 6 不同penalty對查詢意圖分類平均準確率的影響

圖 7 SVM中Model1和Model2的查詢意圖自動分類性能比較

本文將線性分類模型LR和SVM的結果作為Baseline與集成分類模型GBDT進行對比。對于GBDT,本文首先訓練Model1以確定最優的超參數,令每次迭代的學習率step size=0.3不變,改變樹的最大深度(max depth),其實驗結果如圖8所示;再令max depth=20不變,改變迭代的步長(step size),其實驗結果如圖9所示。圖8與圖9的實驗結果表明,當max depth=20,step size=0.3時,獲得最優的平均準確率。然后,本文再使用同樣的超參數,通過提取不同特征來訓練Model2,以此比較不同的特征提取對查詢意圖分類性能的影響,其實驗結果如圖10所示。實驗表明,充分提取語義特征的分類器明顯優于不使用詞間句法依存關系特征的分類器。

圖 8 不同max depth對查詢意圖分類平均準確率的影響

本文再分別從平均準確率、精準率、召回率和F1值比較線性分類模型(LR和SVM)與集成分類模型(GBDT)的性能差異,結果如圖11所示。實驗結果表明,使用集成學習模型對查詢意圖分類的性能明顯優于線性分類模型;由三個分類器使用不同特征集合的實驗表明,使用LTP提取查詢的句法依賴關系作為查詢語義特征,能夠提高機器學習算法對查詢意圖的分類準確率。

圖 9 不同step size對查詢意圖分類平均準確率的影響

圖 10 GBDT中 Model1和Model2的查詢意圖分類性能比較

圖 11 LR、SVM和GBDT的查詢意圖分類性能比較

4 總結與展望

本文嘗試在查詢意圖自動分類中的標注集構建、特征選擇以及在自動分類方法中采用新方法。研究工作主要包括以下方面:(1)基于Rose等提出的意圖類目體系,結合ODP主題類目數據,使用啟發式的方法和匹配的方法形成標注規則,對數據集進行標注;(2)從查詢的語義特征、統計特征和用戶行為特征三個方面進行特征提取,主要利用LTP工具提取查詢的句法依賴關系特征作為語義特征;(3)使用集成學習模型GBDT作為分類器對查詢意圖進行分類。最終實驗結果表明:(1)通過對標注的數據集標簽進行統計,發現標簽比例和人工標注的標簽比例基本一致;(2)使用本文提出的特征集合所訓練的分類器對查詢意圖的分類效率明顯優于不使用詞之間的句法依賴關系特征的分類器;(3)使用集成學習模型的GBDT對查詢意圖的分類效率明顯優于線性分類器。本文方法雖取得較好的實驗結果,但也存在不足之處,主要包括:(1)由于ODP數據收錄網頁數量的局限性,本文所提的標注規則仍有待優化;(2)將會在其他查詢日志數據上進一步驗證本文方法;(3)考慮利用詞向量和遞歸神經網絡提取查詢的深度語義特征,以此提高查詢的分類效率;(4)將查詢意圖識別結果應用到檢索模型中,為查詢返回更準確的查詢結果。

[1]KLEINBERG J M.Hubs,authorities,and communities[J].Acm Computing Surveys,1999,31(4es)∶5.

[2]NGUYEN H.Capturing user intent for information retrieval[C]//Nineteenth National Conference on Artificial Intelligence.July 25-29,2004,San Jose∶ DBLP,2004,48(3)∶371-375.

[3]陸偉,周紅霞,張曉娟.查詢意圖研究綜述[J].中國圖書館學報,2013,39(1)∶100-111.

[4]張曉娟.查詢意圖自動分類與分析[D].武漢∶武漢大學,2014.

[5]BRODER A.A taxonomy of web search[J].Acm Sigir Forum,2002,36(2)∶3-10.

[6]ROSE D E,LEVINSON D.Understanding user goals in web search[J].World Wide Web,2004(11)∶13-19.

[7]AHITUV N.Popular searches in Google and Yahoo!∶ a “digital divide”in information uses[J].Information Society,2010,26(1)∶17-37.

[8]宋巍.基于主題的查詢意圖識別研究[D].哈爾濱∶哈爾濱工業大學,2013.

[9]張森,王斌.Web檢索查詢意圖分類技術綜述[J].中文信息學報,2008,22(4)∶75-82.

[10]DUAN R,WANG X,HU R,et al.Dependency relation based detection of lexicalized user goals[J].Ubiquitous Intelligence and Computing Lecture Notes in Computer Science,2010,6406∶167-178.

[11]JANSEN B J,BOOTH D L,SPINK A.Spink A.Determining the user intent of web search engine queries[C]//Proceedings of the 16th International Conference on World Wide Web.ACM,2007∶1149-1150.

[12]LIU P,AZIMI J,ZHANG R.Contextual query intent extraction for paid search selection[C]//Proceedings of the 24th International Conference on World Wide Web.ACM,2015∶71-72.

[13]MENDOZA M,ZAMORA J.Identifying the Intent of a User Query Using Support Vector Machines[C]//SPIRE.2009∶131-142.

[14]LIU Y,ZHANG M,RU L,et al.Automatic query type identification based on click through information[C]//Asia Information Retrieval Symposium.Springer Berlin Heidelberg,2006∶593-600.

[15]KANHABUA N,NGOC N T,NEJDL W.Learning to detect event-related queries for web search[C]//Proceedings of the 24th International Conference on World Wide Web.ACM,2015∶1339-1344.

[16]JI M,YAN J,GU S,et al.Learning search tasks in queries and web pages via graph regularization[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2011∶55-64.

[17]HU J,WANG G,LOCHOVSKY F,et al.Understanding user’s query intent with wikipedia[C]//Proceedings of the 18th International Conference on World wide web.ACM,2009∶471-480.

[18]FENG L.Novel query intent identification method based on user interest model[J].Journal of Information & Computational Science,2015,12(10)∶3881-3888.

[19]高景斌.基于查詢子意圖識別的檢索結果多樣化方法研究[D].哈爾濱∶哈爾濱工業大學,2012.

[20]張楊浩.基于搜索引擎日志的查詢意圖分類研究[D].重慶∶西南大學,2016.

[21]CORTES C,Vapnik V.Support vector machine[J].Machine learning,1995,20(3)∶273-297.

[22]DOMíNGUEZ-ALMENDROS S,BENíTEZ-PAREJO N,GONZALEZRAMIREZ A R.Logistic regression models[J].Allergologia et immunop athologia,2011,39(5)∶295-305.

[23]FRIEDMAN J H.Greedy function approximation∶a gradient boosting machine[J].Annals of Statistics,2001∶1189-1232.

[24]FRIEDMAN J H.Stochastic gradient boosting[J].Computational Statistics & Data Analysis,2002,38(4)∶367-378.

[25]JOHNSON R,ZHANG T.Learning nonlinear functions using regularized greedy forest[J].IEEE Transactions on Pattern Analysis & Machine Intellig ence,2014,36(5)∶942-954.

[26]CHE W,LI Z,LIU T.Ltp∶A Chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics∶Demonstrations.Association for Computational Linguistics,2010∶13-16.

猜你喜歡
類目日志意圖
原始意圖、對抗主義和非解釋主義
陸游詩寫意圖(國畫)
一名老黨員的工作日志
制定法解釋與立法意圖的反事實檢驗
本期練習題類目參考答案及提示
扶貧日志
游學日志
《中圖法》第5版交替類目研究綜述
黃三角、長三角、珠三角明、清及民國通志一級類目比較*
燕山秋意圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合