產品評論文本中特征詞提取及其關聯模型構建與應用

2017-12-02 01:52余琦瑋徐新勝王慶林

中國機械工程 2017年22期

關鍵詞：特征詞關聯節點

余琦瑋肖穎林靜徐新勝王慶林張飛

1.中國計量大學工業工程研究所，杭州,3100182.中國計量大學機械設計制造及其自動化研究所，杭州,310018

產品評論文本中特征詞提取及其關聯模型構建與應用

余琦瑋1肖穎1林靜1徐新勝1王慶林1張飛2

1.中國計量大學工業工程研究所，杭州,3100182.中國計量大學機械設計制造及其自動化研究所，杭州,310018

網絡上產品評論文本是用戶對產品的評價與反饋，及時、有效挖掘其中有價值的信息是制造企業、銷售商獲取競爭優勢迫切需要解決的問題。綜合詞形、詞性、依存關系、控制詞及其情感描述等，設計了特征詞提取規則單元以及規則模板，基于條件隨機場實現了產品特征詞的有效提取，并對特征詞進行分類；構建了特征詞頻次、情感評分的計算模型；結合產品特征詞的內容與分類，構建了產品特征詞關聯模型。在此基礎上，提出了基于貝葉斯網絡的產品特征詞關鍵影響因素推理方法，并以某手機產品為對象進行應用與驗證。研究結果可以為制造企業、銷售商的精細化管理提供實施依據。

文本挖掘；特征詞提??；情感評分；關聯模型構建；影響因素推理

0 引言

隨著大數據時代的到來，數據成為一種重要資源，基于海量數據的科學決策和精細化管理將成為現代企業管理發展的必然趨勢[1]。在電子商務領域，海量的產品評論蘊含著豐富的信息，但往往用戶、企業等需要花費大量時間才能找到感興趣的信息。評論(包括政治評論、文學評論、電影評論、產品評論、餐飲評論等[2])挖掘是近年興起的處理海量評論數據的有效方法。產品評論挖掘的主要任務是產品特征詞提取以及針對產品特征詞的情感評價[3]。產品特征詞提取是指從產品評論文本中抽取用戶評價的、與產品有關的詞語，通常包括產品的功能、性能、可用性、售后服務等，是產品評論挖掘的基礎環節。

針對產品特征詞提取，研究人員提出了許多方法。在英文產品評論方面，HU等[4]提出了抽取頻繁項作為產品特征詞的方法。進一步地，WEI等[5]對該方法進行改進，通過從General Inquirer中挑選出形容詞對頻繁詞集進行刪減，提高了特征詞提取的準確率和召回率。余傳明等[6]基于支持向量機，研究了從客戶評論文本中提取產品特征詞的方法。JAKOB等[7]基于條件隨機場(conditional random field，CRF)，研究了產品特征詞及其情感詞的提取方法。此外，SU等[8]提出了基于模式知識的產品特征詞及其情感詞的提取方法。由于中文語言與英文語言在句子結構、句法、語法等方面的不同，針對英文評論文本的產品特征詞提取方法和技術不能直接用于中文評論文本的挖掘。于是，李實等[9-10]將文獻[4]的方法引入中文網絡評論的特征提取應用中，結合漢語特點，對提取結果進行單字詞的剔除，取得了較好的效果。JIANG等[11]基于CRF，研究了提高中文評論文本中特征詞提取的方法。王永等[1]采用FP增長算法和PMI閾值過濾技術，實現了對網絡評論中產品特征詞的提取。祖李軍等[12]提出了PMI的改進算法PMI-Bootstrapping，并應用在論壇評論的產品特征詞提取中。馬柏樟等[13]提出了基于潛在狄利特雷分布模型的特征詞提取方法。徐建民等[14]在本體庫的基礎上，利用TF-IDF算法實現了對文本中特征詞的提取。以上研究都是以獲取與產品相關的特征詞為基礎，并實現了針對特征詞的觀點判別、情感分析、重要性排序等應用。然而，產品特征詞中包含的內容和信息通常很多，如有描述產品零部件本身的特征詞、有描述零部件功能、性能的特征詞，以及描述產品在使用、服務等方面的特征詞，且這些產品特征詞之間存在一定的關聯，并相互影響，已有的產品特征詞提取方法及其應用都沒有開展這方面的研究工作。深入研究和分析產品特征詞之間的關聯與影響，可以為制造企業、銷售商的科學決策和精細化管理提供實施依據。鑒于此，本文以網絡評論文本挖掘為手段，運用規則設計、模板構造等方法，有效提取產品評論文本中的特征詞，并構建產品特征詞關聯模型。在此基礎上，實現基于貝葉斯網絡的關鍵影響特征詞推理與應用。研究結果可以為制造企業、產品銷售商在產品改進、管理與服務等方面提供實施依據。

1 網絡評論與產品管理

基于各種服務平臺，通過網絡終端、移動終端等進行信息交流、溝通，以及商品交易等，已成為現代社會生活的一種重要形式。用戶在電商平臺(如淘寶、京東、亞馬遜等)購買了商品，通常會對商品進行評論與反饋。這些評論文本中蘊含著有關產品功能、性能、服務等方面的信息，如“這個手機分辨率不錯，性價比不錯，但物流不太給力”。制造企業、銷售商如果能夠獲取這些信息，加以有效利用，將會為其產品研發、服務等提供指導依據。同時，用戶也可以通過這些信息決定自己的購買行為。近年來，制造企業、銷售商逐漸關注到用戶評價、反饋信息對產品管理、提高客戶滿意度、提升服務水平的重要性[5]。

有效提取產品評論文本中的特征詞，深入挖掘特征詞之間的關聯與影響關系，能夠為科學、定量的精細化管理提供支持。在此思想指導下，本文提出一種基于網絡評論文本挖掘的產品特征詞提取方法，如圖1所示。

圖1 基于網絡評論文本挖掘的產品特征詞提取及其應用Fig.1 Product feature extraction and its application based on online review mining

借助網絡爬蟲技術，從網頁、論壇、平臺等信息源抓取與目標產品相關的用戶評論文本。在此基礎上，產品特征詞提取及其應用的工作主要分為四個階段。

(1)基于CRF的產品特征詞提取。為了對目標產品進行深入分析，從分詞結果中篩選出與產品相關的特征詞。CRF模型[15]是一種判別式概率模型，能夠有效標注、分析序列資料(如自然語言文字等)。本文采用CRF模型實現產品特征詞提取。首先，準備一定規模的訓練集，并完成情感詞標注等；然后，設計特征詞提取規則，在此基礎上，運用CRF系統完成關鍵的產品特征詞提取工作。

(2)產品特征詞的定量描述。產品特征詞的定量描述包括：頻次和情感評分計算。產品特征詞的頻次是指特征詞在所有評論文本中出現的次數之和，反映了用戶對該特征詞的關注程度。產品特征詞的情感評分描述了用戶對該特征詞的喜愛、偏好及其程度。頻次計算和情感評分為定量分析產品特征詞及其應用提供了數據基礎。

(3)產品特征詞關聯模型構建?；诜衷~結果和CRF提取得到的產品特征詞集，結合產品特征詞分類，將產品特征詞與產品基礎結構上各相關節點(零部件)分別建立聯系，構建產品特征詞關聯模型，為實現以產品及其零部件為目標的管理應用提供模型與數據支持。

(4)基于評論文本挖掘的產品管理應用。通過產品特征詞提取及其頻次計算和情感評分，在識別出用戶關注度高、評價負面的產品特征詞的基礎上，結合產品特征詞之間的關系以及特征詞與產品結構之間的關聯與數量信息，深入分析引起用戶負面評價的潛在影響因素(產品特征詞)，為制造企業或銷售商的產品管理提供實施依據。

2 基于CRF的產品特征詞提取

CRF模型[15]中，隨機變量x表示需要標記的觀察序列集，隨機變量Y表示相應的標記序列集，假設所有的yi∈Y在一個大小為N的有限字符集內?；贑RF的產品特征詞提取過程如圖2所示。在對評論文本進行廣泛分析的基礎上，首先給定訓練集，并人工標注產品特征詞及情感詞等，同時，從分詞詞語、詞性、依存關系、支配詞等，以及標定的特征詞類型、情感詞等方面，設置特征詞提取規則。然后，通過CRF模型對訓練集進行遍歷，結合特征詞提取規則，通過學習得到CRF的核心功能模塊Models，在此基礎上，實現從評論文本的分詞結果中提取相關產品特征詞的目標。

圖2 基于CRF的產品特征詞提取過程Fig.2 Workflow of product feature extraction based on CRF

2.1特征詞提取規則設置

中文由于自身語法、句法、句子結構等的復雜性，且用戶在網絡上發表評論通常用語較隨意[16]，不斷有新的詞匯或表達方式產生，因此，產品特征詞提取、情感評價等難度較大。

為了從產品評論文本中深度挖掘產品的特征詞，本文設計了一個三元組的規則單元結構，即[p,Ω,T]，其組成元素的內涵如圖3所示。

由圖3可以看出，特征詞提取規則在相對位置p、信息類型Ω及其內容T三個方面進行了描述和規定。其中，與當前詞語相關的其他詞語的位置及其內容分別用p和T進行描述。+p表示相對當前詞語的后面第p個位置，而-p表示相對當前詞語的前面第p個位置。T表示所描述位置上的具體內容。信息類型Ω從詞法(詞形、詞性、上下文)、句法(依存關系、支配詞)兩個領域對對應位置所描述的信息類型進行了規定，這些類型分別用符號(0，1，2，3，4)進行表達。圖4給出了一個規則單元結構及其內涵。其他規則的內涵也可以通過這種形式進行解釋，不再贅述。

圖4 一個規則單元結構及其內涵描述Fig.4 Cell structure of a rule and its description

以此為基礎，通過規則單元之間的組合，可以構造具有特定功能目標的特征詞提取規則模板，其一般形式如圖5所示。模板中第一行描述了單個單元規則的應用，第二行描述了同類規則之間的組合應用，第三行描述了不同類型規則之間的組合應用。例如，通過規則單元[0，1，“n”]與規則單元[1，0，“可以”]之間的組合，描述了：當前詞語的詞性是名詞，且當前詞語的下一個詞語是“可以”(表示對該產品特征詞正面的情感評價)。

[p…k，Ωi，T][p…k，Ωi，T]…[pk+h，Ωi，T]…[p…k，Ωi，T]…[pk+h′，Ωi，T]……

s.t.

i,i′∈{0,1,2,3,4} andi≠i′

k,h,h′=const.

圖5特征提取規則模版內容的一般描述形式

Fig.5Generaldescriptionformoftemplatecontentoffeatureextractionrule

基于特征詞提取規則模板，借助CRF方法，以每條評論文本為單元，將其中所有符合條件的特征詞全部提取出來，并按照它們在評論文本中出現的位置順序存儲，作為產品特征詞關聯模型構建的數據基礎。

2.2產品特征詞分類

通常，從產品評論文本中提取的特征詞包含很多方面的內容。為了深入分析產品特征詞之間的內在關聯與相互影響，從評論文本中提取到的產品特征詞需要進行區分，便于相關數據的統計和分析。本文中根據研究對象的特點，產品特征詞主要分為五大類：產品/零部件名稱特征詞、產品/零部件功能特征詞、產品/零部件性能特征詞、產品/零部件可用性特征詞、產品服務特征詞。產品特征詞分類及其之間的邏輯關系如圖6所示。

圖6 產品特征詞分類及其邏輯關系結構Fig.6 Product feature classification and its logic structure

產品/零部件名稱特征詞描述產品/零部件的名稱，如xx F2、攝像頭等。這些特征詞常用于用戶評價一個產品或者其零部件，是構建特征詞關聯關系的依據。

產品/零部件功能特征詞描述產品/零部件功能方面的特征，如拍照、錄影等。

產品/零部件性能特征詞描述產品/零部件性能方面的特征，如像素、續航時間等。

產品/零部件可用性[17]特征詞描述產品/零部件的功能在可掌握、流程合理、操作簡便等方面的特征。

產品服務特征詞描述產品在快遞、物流服務方面的情況，如快遞送到時間長短、貨物包裹是否完好等，也是網絡購買用戶非常關注的內容之一。

這些特征詞之間通過修飾、共現等方式，形成了內在的關聯關系，實現對產品零部件的描述，是構建產品特征詞關聯模型的依據。

3 產品特征詞的定量描述

3.1特征詞頻次

特征詞在評論文本中出現的次數反映了用戶對該產品特征詞的關注程度，是制造企業深入了解客戶關注點的一個方面。評論文本中，特征詞i出現的頻次計算模型為

(2)

其中，ns為所有評論文本的條數；kis為第i個特征詞在第s條評論文本中出現的次數。

特征詞頻次從所有評論文本中對特征詞進行了全面的統計，是后續計算、分析與特征詞相關統計參量的基礎。

3.2特征詞情感評分

用戶對產品給出的反饋與評價，在評論文本中通常表現為特征詞之間的修飾、描述等形式。通過對評論文本的分詞結果分析可知，特征詞之間的修飾、描述形式通常表現為

{程度副詞，情感詞，特征詞}

其中，程度副詞修飾情感詞，程度副詞和情感詞一起修飾特征詞，表達用戶對產品特征詞的主觀感受或評價。

通常，程度副詞和情感詞都是非結構化的文本描述形式，表達的情感強弱程度也各不相同。為此，本文中將情感詞分類為褒義情感詞(P)、貶義情感詞(N)以及中性情感詞(M)。根據情感詞的極性(P或N)及其情感強度分類，分別設置1、3、5、7、9五個分值，強度依次增強。同樣，程度副詞根據其強度分類，分別設置2、4、6三個分值，強度依次增強。中性情感詞如大、小、多、少，與不同的產品特征詞結合可能產生不同的表達結果，難以判斷其褒貶義，為此結合整條評論文本的語境，將所有情感詞(包括褒義和貶義)的綜合得分作為被中性情感詞修飾的特征詞i的情感得分。

基于此，特征詞i的情感評分計算模型為

其中，SFi為第i個特征詞Fi的情感評分;SFi_P為第i個特征詞Fi在褒義評論文本中的情感評分;SFi_N為第i個特征詞Fi在貶義評論文本中的情感評分;SFi_M為第i個特征詞Fi在中性評論文本中的情感評分;a、b、c分別為與Fi有關的褒義評論的條數、貶義評論的條數、中性評論的條數;SPx為第x條褒義評論中距離Fi最近的情感詞的分值;SPxA為第x條褒義評論中修飾最近情感詞的程度副詞的強度;SNy為第y條貶義評論中距離Fi最近的情感詞的分值;SNyA為第y條貶義評論中修飾最近情感詞的程度副詞的強度;pz為針對特征詞Fi的第z條中性評論中褒義情感詞的個數；nz為針對特征詞Fi的第z條中性評論中貶義情感詞的個數；SMz_Pz1為第z條中性評論中第z1個褒義情感詞的情感分值；SMz_Pz1A為第z條中性評論中修飾第z1個褒義情感詞的程度副詞的強度；SMz_Nz2為第z條中性評論中第z2個貶義情感詞的情感分值；SMz_Nz2A為第z條中性評論中修飾第z2個貶義情感詞的程度副詞的強度。

產品特征詞的情感評分綜合反映了用戶對產品特征詞的情感傾向性及其程度，是制造企業確認關注目標、分析關聯因素、實施定量管理的基礎。

4 產品特征詞關聯模型構建

產品特征詞關聯模型以產品基礎結構為框架，將從評論文本中挖掘的特征詞，根據其內容與類型，分別在產品基礎結構中找到對應者，或將其添加到相關的節點(產品、部件、零件)中。

基于分詞結果和產品特征詞構建產品特征詞關聯模型的算法流程如圖7所示。

圖7 構建產品特征詞關聯模型的算法流程Fig.7 Algorithm workflow of constructing correlationmodel among product features

在讀取和構建特征詞之間關聯關系的過程中，如果當前構建的產品特征詞之間的關聯關系在前面的過程中已經構建并存在，則這對關聯關系的數量將累加到前面的數據中；如果不存在，則其數量賦為初始值。產品特征詞關聯模型中，特征詞之間的數據結構為一個四元組結構，如下所示：

PSFij=[Fi,Fj,Num,Sco]

其中，Fi為關聯單元中的父節點(即第i個特征詞)；Fj為關聯單元中的子節點(即第j個特征詞)；Num為關聯單元中第j個特征詞在整個評論文本中出現的頻次；Sco為關聯單元中第j個特征詞在整個評論文本中的情感評分。

基于圖7描述的算法流程，將原本分散在不同評論文本中的特征詞及其關系進行歸類和集中，形成了復雜、完整的產品特征詞關聯模型，為基于評論文本挖掘的綜合管理與應用提供了模型和數據基礎。

5 關鍵影響特征詞推理

基于特征詞提取、特征詞頻次與情感得分計算，并通過構建的產品特征詞關聯模型，可以方便地確定用戶對產品特征詞的關注或評價狀況。針對用戶評價不理想(情感評分計算較低)的產品特征詞，有效確定關鍵的影響因素，能夠為制造企業或銷售商的管理工作提供重要指導依據。貝葉斯定理為利用搜集到的信息對原有判斷進行修正、推理提供了有效手段。以產品特征詞關聯模型的結構和數據為依據，基于貝葉斯的關鍵影響產品特征詞推理過程的數學描述如下。

關于一組變量X={X1,X2,…,Xn}的貝葉斯網絡包括兩個部分：①表示X中變量條件獨立的網絡結構S；②與每一個變量相聯系的局部概率分布集合P。如果以Xi表示變量以及該變量對應的節點，Xj表示S中Xi的父節點，則在父節點的客戶評價不理想(情感得分較低，N)的情況下，由各子節點造成的可能性計算模型如下：

(2)

其中，P(Xi=L)為所有用戶評論中，對產品特征詞Xi不滿意(L)的評論比例，即

(3)

其中，n(r,Xi)為第r條評論中，包含特征詞Xi的次數;m(r,Xi,L)為第r條評論中，包含特征詞Xi且對其評價為負面(L)的次數;Q表示評論文本的總數。

同時，P(Xj=N|Xi=L)為某一子節點特征詞Xi評價為負面(L)時，父節點特征詞Xj的用戶評價不理想(N)的概率。結合產品特征詞關聯模型，P(Xj=N|Xi=L)計算模型為

P(Xj=N|Xi=L)=
∑P(Xj=N|Xi,…,Xk)P(Xi=Γ)Γ=L,M,H,…,
P(Xk=Γ)Γ=L,M,H

(4)

其中，P(Xj=N|Xi,…,Xk)描述子節點(Xi,…,Xk)分別獲得肯定(H)、否定(L)和中性(M)評價時，父節點特征詞Xj的用戶評價不理想(N)的概率。這些子節點分別獲得肯定(H)、否定(L)和中性(M)評價時的概率和，表示子節點特征詞Xi評價為負面(L)時，父節點特征詞Xj的用戶評價不理想(N)的概率，即P(Xj=N|Xi=L)。

基于產品特征詞關聯模型的結構及其數據，可以方便地統計這些子節點特征詞狀態的概率及其對父節點特征詞狀態影響的概率。因此，通過式(2)～式(4)可以實現關鍵影響特征詞的推理。

6 應用案例

為了說明上述原理與方法的可行性，以國內某電子通信產品xx F2為例，從中關村、京東和蘇寧三個電商平臺，分別用網絡爬取工具火車采集器和GoSeeker(由于不同電商平臺的網頁結構不一樣，所以分別采用了不同的網絡爬取工具)抓取了12 955條(其中，中關村772條，京東7392條，蘇寧4791條)產品評論文本記錄，并采用ictclas和ltp軟件工具進行分詞、句法分析。結合CRF的應用需求設計了產品特征詞提取規則及其模板，并開發了產品特征詞提取及關聯模型構建系統。

產品特征詞是所有分析與應用工作的基礎，本文專門設計了特征詞提取規則及其模板。為了驗證其有效性，將基于本文提出的特征詞提取規則及其模板提取得到的產品特征詞結果，與JAKOB等[7]的方法(與本文的研究思路最為接近)提取得到的產品特征詞結果進行試驗驗證與比較，采用通用評價指標：準確率(P)、召回率(R)，以及F值為衡量標準。設計驗證實驗如下：將5000句實驗語料分成5個子集，并分別編號為1、2、3、4、5，每個子集均包含1000句產品評論文本。采用5折交叉驗證法，每次以4個子集作為訓練集，1個子集為測試集，交叉重復5次，保證每次測試集是不同的子集。產品特征詞提取的各項指標分別如表1所示?？梢钥闯?，運用本文中提出的方法，產品特征詞提取過程的F值達到54.51%，高于Jakob方法的50.63%，說明本文中提出的產品特征詞提取規則及其模板設置是合理的。

表1 兩種產品特征詞提取方法的實驗結果

在產品特征詞提取、同義詞/近義詞處理[1,9,12]的基礎上，結合特征詞頻次、情感評分計算及其分類，基于圖7描述的算法流程，構建了產品特征詞關聯模型如圖8所示，表達了用戶對各級產品特征詞的關注、偏好、評價等定量信息。值得注意的是，父節點與其所有子節點之間在數據(頻次、情感評分)上并不滿足疊加特性，即所有子節點的相關數據之和并不等于父節點的對應數據。這與實際情況是符合的，因為產品零部件也作為產品評論文本中的特征詞，其數據是根據產品零部件名稱特征詞在客戶評論文本中出現的頻次及客戶對其評價計算得到的，而表征功能、性能、可用性、服務的子節點特征詞，也是根據其在客戶評論文本中存在情況計算得到的，兩者之間不一定同時出現。因此，父子節點之間的相互關聯與影響程度需要另行計算分析。

圖8 xx F2產品特征詞關聯模型Fig.8 Product feature correlation model of xx F2

針對情感評分不理想的產品特征詞，提出基于貝葉斯網絡推理關鍵影響特征詞。根據貝葉斯網絡的推理需要，基于產品特征詞的頻次與情感評分數據，構造了產品特征詞之間相互影響關系的概率表(表2)，由于篇幅限制，只給出了部分節點之間的條件概率。

表2產品特征詞之間相互影響關系的概率表(部分)

Tab.2Possibilityformofmutualinfluencerelations
amongproductfeatures(partial)

以圖8中產品特征詞“屏幕”(情感評分僅為92)為例，結合表2中的數據，通過式(1)～式(3)，分別計算與產品特征詞(父節點)“屏幕”關聯的產品特征詞(子節點)“分辨率”“靈敏度”“材料”，造成用戶對特征詞“屏幕”評價不理想的概率為：0.437、0.314、0.249。由此可知，針對產品xx F2，造成用戶對其產品特征詞“屏幕”不太滿意，最可能的因素是“分辨率”。因此，制造企業需要對產品屏幕的“分辨率”進行改進和完善，從而提高產品的客戶滿意度。同樣，其他產品特征詞之間的相互關聯與影響情況，也可以通過這種方式計算。

7 結論

本文以文本挖掘為手段，基于CRF原理及其應用需求，在傳統詞形、詞性的基礎上，綜合考慮依存關系、控制詞及其類型，以及指定句子結構中的具體內容，設計了產品特征詞提取規則單元及其模板，可以有效提取特定語言表達習慣與方式中的內容，提高了產品特征詞提取的效率。在此基礎上，構造了特征詞頻次及其情感評分的計算模型，為產品特征詞的定量描述提供了參考。進一步地，構建了產品特征詞關聯模型，將原本分散在產品評論文本中的特征詞進行歸類與集中；基于貝葉斯網絡實現了對用戶評價不理想的產品特征詞的關鍵影響因素進行推理，從而可以深入洞察產品特征詞之間的關聯與影響機制，為產品設計者、制造者或零售商的精細化管理提供依據。

然而，基于中文自然語言的處理和應用是一個復雜、廣泛的課題，本文只作初步探討，相關內容還需進一步研究和完善，特別是在產品特征詞挖掘的準確率、產品特征詞中同義詞/近義詞處理、評論文本中新產生的特征詞及其與現有特征之間的關系、產品特征詞之間的語義關系等，都需要進一步研究，這是提高基于評論文本挖掘的工程應用價值的關鍵。

[1] 王永，張勤，楊曉潔. 中文網絡評論中產品特征提取方法研究[J].情報分析與研究，2013，12:70-73.

WANG Yong, ZHANG Qin, YANG Xiaojie. Research on the Method of Extracting Features from Chinese Product Reviews on the Internet [J]. Intelligence Analysis and Research， 2013, 12: 70-73.

[2] JIN J, JI P, GU R. Identifying Comparative Customer Requirements from Product Online Reviews for Competitor Analysis [J]. Engineering Applications of Artificial Intelligence, 2016,49: 61-73.

[3] RAVI K V , RAGHUVEER K. Web User Opinion Analysis for Product Features Extraction and Opinion Summarization [J]. International Journal of Web amp; Semantic Technology, 2012,3(4): 69-82.

[4] HU M, LIU B. Mining Opinion Features in Customer Reviews [C]// National Conference on Artificial Intelligence. San Jose, 2004:755-760.

[5] WEI C P, CHEN Y M, YANG C S, et al. Understanding What Concerns Consumers: a Semantic Approach to Product Feature Extraction from Consumer Reviews [J]. Information System amp; E-business Management, 2010,8(2):149-167.

[6] 余傳明，陳雷，張小青.基于支持向量機的產品屬性識別研究[J].情報學報，2010,29(6)：1038-1044.

YU Chuanming, CHEN Lei, ZHANG Xiaoqing. Mining Product Features from Free-text Customer Reviews: an SVM-based Approach[J]. Journal of the China Society for Scientific amp; Technical Information, 2010,29(6)：1038-1044.

[7] JAKOB N, GUREVYCH I. Extracting Opinion Targets in a Single- and Cross- Domain Setting with Conditional Random Fields [C]// Conference on Empirical Methods in Natural Language Processing. Cambridge,2010:1035-1045.

[8] SU S H, LYNN K T. Extracting Product Features and Opinion Words Using Pattern Knowledge in Customer Reviews [J]. The Scientific World Journal, 2013: 394758.

[9] 李實,葉強,李一軍, 等. 中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報， 2009,12(2):142-152.

LI Shi, YE Qiang, LI Yijun, et al. Mining Features of Products from Chinese Customer Online Reviews [J]. Journal of Management Science in China, 2009,12(2):142-152.

[10] LI Shi, YU Ming. Mining Frequent and Infrequent Features from Chinese Customer Reviews [J]. Journal of Theoretical and Applied Information Technology, 2013, 48(1): 193-199.

[11] JIANG T J, SHIH C W, YANG T H, et al. Enhancement of Feature Engineering for Conditional Random Field Learning in Chinese Word Segmentation Using Unlabeled Data [J]. Computational Linguistics amp; Chinese Language Processing, 2012,9: 45-86.

[12] 祖李軍，王衛平. 中文網絡評論中提取產品特征的研究[J].計算機系統應用, 2014,23(5):196-201.

ZU Lijun ，WANG Weiping. Research of Extracting Product Features from Chinese Online Reviews [J]. Computer System Applications， 2014,23(5):196-201.

[13] 馬柏樟，顏志軍. 基于潛在狄利特雷分布模型的網絡評論產品特征抽取方法[J].計算機集成制造系統, 2014,20(1):96-103.

MA Baizhang，YAN Zhijun. Product Features Extraction of Online Reviews Based on LDA Mode [J]. Computer Integrated Manufacturing Systems，2014,20(1):96-103.

[14] 徐建民，王金花，馬偉瑜. 利用本體關聯度改進的TF-IDF特征詞提取方法[J]. 情報科學,2011,29(2):279-283.

XU Jianmin, WANG Jinhua，MA Weiyu. Improved TF-IDF Feature Selection Method Based on Ontology Relative Degree [J]. Intelligence Sciences， 2011,29(2):279-283.

[15] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, 2001:282-289.

[16] VELARDI P, STILO G, TOZZI A E, et al. Twitter Mining for Fine-grained Syndromic Surveillance [J]. Artificial Intelligence in Medicine, 2014, 61(3):153-163.

[17] WU Mingxing, WANG Liya, LI Ming, et al. An Approach of Product Usability Evaluation Based on Web Mining in Feature Fatigue Analysis [J]. Computers amp; Industrial Engineering, 2014,75(1): 230-238.

(編輯王旻玥)

FeatureExtractionandCorrelationModelConstructionofOnlineProductReviewsandItsApplications

YU Qiwei1XIAO Ying1LIN Jing1XU Xinsheng1WANG Qinglin1ZHANG Fei2

1.Institute of Industrial Engineering,China Jiliang University,Hangzhou，310018 2.Institute of Mechanical Design, Manufacturing and Its Automation,China Jiliang University,Hangzhou，310018

Online product reviews were the feedback of customer valuing a product. It was an urgent problem for manufacturers and retailers to mine valuable informations effectively and timely from online product reviews with the goal of gaining competitive advantages. Considering comprehensive factors such as word, part-of-speech (POS), dependency relations, governing word and its opinion description, the unit of rule for extracting product features and the rule template were designed. Product features were extracted from online reviews effectively through conditional random field (CRF) theory, and the product features were classified. The quantitative calculation models of product features including frequency and sentiment score were proposed. A correlation model among product features was established based on the description contents of product features and their classifications. On the basis of these, an approach of inferring the key influence factors among product features was presented based on Bayes network. Finally, a case study was performed to verify the feasibility of the methods mentioned above by using a mobile phone as an example, and the results may be used as evidence to implement precision management for manufacturers and retailers.

text mining; feature extraction; emotional scoring; correlation model construction; influence factor deducing

TP14;TH128

10.3969/j.issn.1004-132X.2017.22.011

2016-11-23

國家自然科學基金資助項目(51405462,51305417);浙江省自然科學基金資助項目(LY16G010006);浙江省科技廳公益性技術應用研究計劃資助項目(2014C31117)

余琦瑋，女，1978年生。中國計量大學工業工程研究所講師。主要研究方向為數據挖掘、人因工程。肖穎，女，1978年生。中國計量大學工業工程研究所講師。林靜，女，1993年生。中國計量大學工業工程研究所碩士研究生。徐新勝(通信作者)，男，1976年生。中國計量大學工業工程研究所副教授。E-mail: lionkingxxs@cjlu.edu.cn。王慶林，男，1995年生。中國計量大學工業工程研究所碩士研究生。張飛，女，1978年生。中國計量大學機械設計制造及其自動化研究所副教授。