?

基于條件隨機場的產品特征提取方法

2016-04-07 15:56劉帥凌劍勇吳元昊王斌李正煒
電腦知識與技術 2016年3期
關鍵詞:語法語義

劉帥 +凌劍勇 吳元昊 王斌 李正煒 +楊永健

摘 要:從用戶評論獲得產品特征信息不僅可以指導用戶理性消費,同時也為企業提高競爭力改進其產品質量提供了參考依據。根據中文用戶對商品評論的特點,提出了一種基于CRFs(條件隨機場)的產品屬性、特征提取模型。該模型中集成了多特征實現產品特征抽取任務,提出了一種基于語法、詞性、語義的改進特征概念。通過實驗結果表明,該模型有效實現了通過產品評論提取產品屬性的目的,模型的準確率達到84.65%。

關鍵詞:產品評論;產品特征;條件隨機場;語法;語義

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)03-0187-04

1 概述

隨著互聯網的發展,互聯網相關的電子商務、論壇、社交網絡等熱門互聯網衍生物也在飛速發展,越來越多的用戶借助互聯網平臺發布評論。海量的產品評論中包含著豐富的信息量,大多含有關于對產品意見的部分,通過觀點挖掘技術,可以幫助潛在用戶更準確地了解產品的性能、質量等相關信息,作為合理購買的依據,同時,也為產品制造商提供了用戶的興趣點、關注點等數據。

近幾年,國內外在文本挖掘領域傾向于對文本的情感分析和觀點挖掘的研究,情感分析可以粒度化為篇章級、句子級和詞語級,通過判斷詞語的情感極性來確定句子的情感傾向,從而判斷評論的情感傾向;觀點挖掘可以分為段落級,句子級和特征級,其中段落級和句子級的研究主要是分類段落和句子的語義褒貶傾向。Hu[1]提出的一種基于WordNet字典的模型,該模型利用情感詞,計算每一條評論中最接近特征詞正負情感詞的數量。在特征級的方面的研究,主要集中通過評論挖掘產品屬性特征。Hu[1-2]采用關聯分析的方法,在產品評論中提取產品特征,定義判斷距離產品特征最近的形容詞為觀點詞。Li[3]通過人工的方法確定產品特征。缺陷是人工定義的特征具有主觀性,并且很難移植到其他領域。Popescu[4]通過觀點主題和觀點詞人工定義了模板,通過基于模板形成一套抽取規則抽取產品特征。Zhuang L[5]提出一種通過對領域知識的機器學習,利用CRFs模型抽取產品特征的方法。

2 產品特征識別系統模型介紹

該系統模型分為兩部分:一、評論數據,通過人工標注建立語料庫,語料通過特征提取模板,形成訓練集和測試集。二、訓練集通過CRFs方法進行機器學習,生成CRFs訓練模型,測試集通過CRFs訓練模型,提取出產品特征。

本文模型設計是利用JAVA通過MALLET中集成的CRFs工具實現的。圖1給出了產品特征識別識別系統的框架。

2.1 CRFs(條件隨機場)

條件隨機場( Conditional Random Fields, CRFs)模型[6]是近年來提出的一種機器學習方法, 用于在給定需要標記的觀察序列的條件下,計算整個標注序列的聯合概率分布。CRFs是一種判別式模型,采用的是無向圖分布,沒有嚴格的獨立性假設,可以任意選取特征。隱馬爾科夫模型是生成模型,它針對聯合概率p(y,x)建模,在模型中做了若干獨立性假設,而條件隨機場模型直接對所求的條件概率p(y|x)進行建模,在給定觀察序列x條件下推導標簽序列y,這使得CRFs模型可以避免獨立性假設并捕獲不同特征之間的關系。而且因為CRFs采用了全局歸一化的方法,避免了最大熵馬爾科夫模型中的標簽偏置問題。故條件隨機場模型在標注上優于隱馬爾科夫和最大熵馬爾科夫等模型,取得較好的效果。

CRFs是一種無向圖模型或者馬爾可夫隨機域,它采用一階鏈式無向圖結構計算給定觀察值條件下輸出狀態的條件概率。如圖2所示。

輸出狀態的條件概率。如圖2所示。

2.2 CRFs模型特征模版選取

根據網絡評論復雜性、多樣性等特點,結合近年來中文分詞、詞性標注、漢語組塊等自然語言處理領域的最新研究,采用豐富的特征模板集,以下是對這些特征模板介紹。

2.2.1句法解析析特征定義

1)中文分詞特征

本文采用的是由斯坦福大學自然語言小組開發的中文句法分析工具,實現對評論語句進行分詞和語法標注,句子成分解析等文本預處理功能。通過分詞后的詞語作為判斷產品特征的基本語言單位。

2)詞性標注特征

通過句法解析系統對句子進行語法解析,確定分詞后的每個詞、字的語法成分,確定目標詞的詞性特征。該特征也是通過人工標注目標詞和基于斯坦福大學自然語言小組開發的中文句法分析工具提取特征。

2.2.2 上下文特征

1)判斷目標詞與觀點詞距離

在用戶評論中,存在許多主觀性的評論,在描述某一種屬性特征時,會用到不同的情感詞,例如,評價商家物流質量的“發貨”,通常會搭配“快捷”,屬性往往會有很多常用的情感詞與之形成搭配關系,通過確定距離情感詞最近的目標詞,通過詞語語義相似度計算,匹配得出與目標詞做相似的產品屬性,計算屬性于情感詞之間的互信息。

2) 基于目標詞的上下文特征

根據目標詞的詞性信息與相鄰詞的詞性信息之間的相關度,以目標詞為中心計算臨近詞的相關度根據經驗,我們選取[-2,+2]上下文窗的尺度。

2.2.3 組塊特征

通過句法解析工作對句子的處理,我們得到了經過分詞、語法、詞性標注后的句子單元,能夠解析出句子中的單個詞、字,中文評論中用戶往往是通過短語和固定搭配對產品特征進行描述的,在標注過程中并沒有能夠標出短語(除專有名詞外,例如人名、地名),顯然,人名、地名等專有名詞通常不是普通產品的特征(與特別服務性產品相關,如旅游、特產),本文根據王瑩瑩等[7]關于漢語組塊的研究及李實[8]基于基本名詞短語提取方法,引入了組塊特征。

組塊被定義為在句子中相鄰的,非嵌套的、不包含其他類別組塊的詞語序列,是符合一定語法,并能反映出實際意義的非嵌套短語。

根據中文評論反映產品特征的特點,主要是通過名詞短語、實意性動詞、形容詞反映特征的,所以組塊特征中我們主要采用了了名詞組快、動詞組塊。從句句法解析后的詞語中提取出各組組塊。

2.2.4 改進詞語語義、語法特征

1)基于字典判斷詞語的語義相似度

利用基于字典《知網》和計算詞語之前互信息的方法,確定目標詞的語義相似度。提取產品評論的標題和產品介紹中的屬性詞作為基準詞源,通過計算目標詞的相似度來確定目標詞與產品特征的相關度。

2)改進的語法、語義特征識別方法

通過對產品評論的研究,我們發現可以根據語法確定句子的主語,當主語是人時,句子往往反映的是用戶主觀意見,賓語往往是配修飾的特征對象,能夠反映產品特征的詞是名詞,動詞。形容詞。

基于標注的方法,根據人工判斷反映特征詞進行標注,定義訓練集。由于大部分特征通過名詞和名詞組來識別,通過名詞搭配形容詞來確定特征也是也是在確定產品特征的方法,但通過動詞來判斷特征的研究目前仍然不完善,對評論特點的研究,我們發現用戶會用描述性語言描述用戶體驗和功能使用效果,這類的評論單純通過傳統的方法很難識別、匹配產品特征。本文通過標注反映產品特征的觀點詞,及對點詞形成語法關系中從屬關系的主語詞、賓語詞與定義的產品特征語義相似度計算,從而實現對產品特征的識別。

2.3 語料標注規則介紹

本文提出的標注規則如下:

1、具有實義的詞能夠直接反映特征的單個詞

這類詞的特點是通過其本身的實義就能夠反映產品的特征,屬于反映顯性特征的詞。

2、通過詞語搭配反映特征的組塊

這類詞的特點是不能夠直接的判斷其特征,如“看起來”,單純通過動詞“看”不能夠反映產品外觀屬性,而通過動詞組塊“看起來”這可以判斷。

3、通過不同詞性詞語搭配反映特征的,采用嵌套的標注形式

這種搭配形式屬于一種由動詞、形容組成的動詞及其補足語的嵌套結構,不屬于組塊特征。但往往這類詞語搭配的特點是通過組合后共同準確反映特征,消除歧義,如“使用方便”反映了產品的“操作”特征,而單純通過“使用”或是“方便”都很難準確的判斷出操作的特征。這類標注為特別動詞組。

3實驗及結果分析

3.1 實驗過程

本文的數據集通過網絡爬蟲程序從電子商務網站上爬取電子產品領域的網絡評論,爬取了鍵盤、鼠標、手機、吸塵器4個領域各100條評論文本數據,采用人工標注的方法對產品的特征進行標注,提取出1255個產品特征及相關特征詞,利用預處理后的評論文本作為實驗數據集。其中隨機抽取數據集中70%數據作為文本訓練集,另外30%數據作為文本測試集。通過反復10次的交叉校驗,綜合10校驗結果的平均值作為結果,評估模型的有效性。本文采用的評價標準是通過對準確率(P%)和召回率(R%)/及F值(F%)的評價。其中,F值為準確率和召回率的調和平均值。

我們根據第2小節中所介紹的特征模板進行了多組實驗,在實驗中,我們設置CRFs的參數為默認參數,情感詞特征的窗口設置為[-4,+4],上下文詞語與詞性的窗口設置為[-2,+2]。

本文采用特征模板列表如下:

根據表1,我們規定句法分析特征為基準特征,余下的特征模板作為擴展特征。通過對比各個特征模板的性能,選擇效果最好的模板對產品評論進行特征提取,并根據實驗結果分析方法的有效性。

3.2實驗結果分析

1)通過預料中鍵盤領域產品評論數據做基準數據,進行結果分析,實驗結果如圖3、圖4所示:

圖3所反映的結果是以句法解析特征為基礎,基于單一擴展特征的數據分析結果,從圖3中,我們可以直觀的發現基于本文提出設計的改進的語義分析特征模塊和基于詞語組塊特征的效果最為顯著,較之其他方法,最大幅度分別提升了4.65個百分點和3.96個百分點,分析這兩組方法,證明在豐富了的動詞、形容詞及其常用搭配關系的改進詞語語義分析方法,其識別效果是明顯的,而根據中文的語言習慣建立的詞語組塊特征,比較傳統的單一通過詞性、上下文關系和判斷情感詞距離的方法,能夠更全面的描述詞語特點。

圖4是按照圖3中性能優劣的從低到高逐一疊加各種特征模板,進行了對比試驗。通過圖4數據所示,我們可以直觀的發現隨著特征模板的不斷細化、累加,模型性能也逐步提升,實驗為判斷在相對較完備的特征訓練模型中再集成改進的語義分析特征與基于詞語組塊特征的性能,我們發現,這兩種方法的效果十分接近,在比較集合所有特征模板的綜合特征,我們發現性能有較為明顯的提升。

通過分析,我們發現,基于本文提出的基于語義特征分析分改進方法,雖然考慮了動詞、形容詞、語法等綜合因素,但都是以詞語為基本單位進行分析,而結合詞語組塊的特征后,定位主語、謂語、固定搭配、都提供了更為全面和精細的特征描述。因此,在相同特征模板集合基礎上,集成了上述兩特征模塊,實驗效果十分明顯。

3.3 系統性能評估

評估實驗中我們采用了李實[8]等人的評估方法,利用通過特征提取系統挖掘出的產品特征與實際產品特征(人工標注、通過產品簡介和評論標題獲得)計算它們之間的準確率(P%),召回率(R%),作為評估指標。計算法方法如下:

準確率:[(P%)=AA+B]

召回率:[(R%)=AA+C]

F值:[(F%)=2×P×RP+R]

其中,A是實際產品特征數中挖掘出的產品特征數,B是非實際產品特征數中挖掘出的產品特征數,C是實際的產品特征數中未挖掘處的產品特征數。

表2 評估實驗結果

[產品名稱\&實際產品特征詞\&準確率 P%\&召回率 R%\&F值F%\&手機\&376\&84.74\&67.28\&75.00\&鍵盤\&360\&84.61\&58.84\&69.41\&鼠標\&286\&81.77\&62.41\&70.80\&吸塵器\&233\&87.49\&49.46\&63.19\&平均值\&314\&84.65\&59.50\&69.88\&]

通過觀察表2所示結果,4類產品的平均準確率為84.65%,平均召回率為59.5%,驗證了該系統的有效性,但由于中文的復雜機構,中文分詞系統和詞性標注系統還沒有完善,在詞性標注方面仍然產生了歧義,基于本文提出的基于語法及標注動詞、形容詞的方法,由于詞性判斷的不確定性,降低了實驗的召回率。

4 結論

在本文中,我們通過對產品評論特點的研究,利用文本挖掘技術,建立了一種基于CRFs(條件隨機場)的產品特征識別模型,模型中的特征模版集合了多種特征,通過實驗和豐富的實驗數據,具體分析了各個特征的性能、局限性,并根據分析結果,采用多特征組合進行進一步實驗,得到了比較好的實驗效果,驗證了本文設計的系統模型的有效性。通過對產品評論語料的分析,我們發現,一個主語往往被并列的描述多個特征,而且往往在后文中會用代詞代替等語言特點,如何根據這些特點進行歸納,建立更為全面、適用性強的特征是未來研究的一個方向,同時選取更有效的特征也是未來研究的重點。

參考文獻:

[1] H u M, Liu B. Mining Opinion Features in Customer Reviews[C]. In AAAI, 2004. 755-760.

[2] H u M, Liu B. Mining and Summarizing Customer Reviews[C]. Proceedings of The Tenth ACM SIGKDD International Conference on Know ledge Discovery and Data Mining, 2004. 168-177.

[3] Li Z,Zhang M,Ma Se,t al.Automatic Extraction for Product Feature Words from Comments on the Web[C]. In: Proceedings of the 5th Asia Information Retrieval Symposium on Information Retrieval Technology.2009: 112-123

[4] Popescu A-M, Etzioni O. Extracting Product Features and Opinions From Reviews[C]. In Proceedings of HLT-EMNLP2005, ACL, 2005. 339-346

[5] Zhuang L, et al. Movie Review Mining and Summarization[C]. Proceeding of ACM International Conference on Information and Knowledge Management(C IKM . 2006), Arlington, Virginia, U. S.A. 2006: 1- 7.

[6] John Lafferty, Andrew McCallum, Fernando Pereira.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. Proceeding of International Machine Learning, MA, Jun. 2001. 282-289

[7] 王瑩瑩. 漢語組塊識別的研究[ D] . 大連: 大連理工大學, 2006

[8] 李 實, 葉強, 李一軍,等.挖掘中文網絡客戶評論中的產品特征方法研究[J].管理科學學報, 2009, 12(2): 142-152.

猜你喜歡
語法語義
好懂、好記、好用的語法來了——《講道理的語法》
語言與語義
跟蹤導練(二)4
Book 5 Unit 1~Unit 3語法鞏固練習
參考答案
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
語義分析與漢俄副名組合
修辭的基礎——語義和諧律
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合