基于二分網中心節點識別的產品評論特征-觀點詞對提取研究①

2018-11-14 11:36劉臣,吉莉,唐莉

計算機系統應用 2018年11期

劉臣,吉莉,唐莉

(上海理工大學管理學院,上海 200093)

1 引言

近年來,隨著互聯網技術的迅猛發展,催生了電子商務這種購物模式.消費者購買和使用產品之后會在網上發表對產品的評論,因此電商平臺上產生了大量的商品評論文本數據.這些評論中的觀點詞是把握消費者情感傾向的關鍵,而觀點詞所修飾的特征詞則反映了消費者對于產品關注的焦點.這些特征觀點詞不僅影響著消費者的購買意向,同時也可以作為商家了解競爭對手的一個窗口,從而提高產品質量,更好地為消費者服務.如何從這些海量評論文本中有效地提取商品特征詞和觀點詞,更好為消費者跟商家服務,是意見挖掘領域中的熱點問題.在這些特征詞觀點詞中又有高頻詞和低頻詞之分,高頻詞更能準確地反應消費者關注產品的焦點,所以本文重點挖掘出產品評論中高頻特征觀點詞.

近些年有很多學者針對產品特征詞觀點詞提取進行了研究.Zhao等人[1]提出MaxEnt-LDA為產品特征詞和觀點詞聯合建模,并利用句法特征使兩者分離.但在實際數據中,卻很難識別出評論文本中出現的高頻特征詞.Hu等人[2]利用關聯規則算法,將名詞中的頻繁項集提取出來作為候選特征詞,再將產品特征詞所在句子中的形容詞提取出來作為觀點詞.這種單純的將名詞作為候選特征詞的方法,會產生許多不相關的特征詞,降低結果的準確率.Popescu等人[3]將Hu等人的方法做了改進,首先用PMI算法將停用詞過濾,再通過句法依存關系和特征詞來提取觀點詞.李實等人[4]基于對關聯規則算法的改進對產品評論的特征信息進行挖掘.馬柏樟等人[5]提出基于潛在狄利特雷分布模型的產品特征提取方法.Qiu等人[6]、Hai等人[7]基于雙向傳播算法,利用特征觀點詞之間的修飾關系或依存關系,觀點詞提取特征詞、特征詞提取觀點詞的雙向傳播模式.實驗結果表明,利用雙向傳播算法提取特征詞和觀點詞的召回率較高,但隨著迭代的深入開始出現較多的無關詞,導致準確率較低.

孫曉等人[8]提出了基于條件隨機場模型和支持向量機的層疊模型,提取產品評論中的特征詞和觀點詞.劉臣等人[9]則是將評論中的名詞組塊作為產品特征,動詞組塊作為觀點詞來提取特征觀點詞.劉通等人[10]依據N-Gram的邊界平均信息熵的指標和子串依賴關系對候選項進行過濾并提取特征.Jin等人[11]采用HMMs模型識別特征觀點詞.李志義等人[12]在條件隨機場模型(CRFs)的基礎上,通過分析特征詞和觀點詞之間存在的依存關系抽取特征觀點詞.Titov等人[13]利用多粒度主題模型,提取出按主題自動聚類的特征詞和觀點詞.彭云等人[14]提出語義關系約束的主題模型SRC-LDA (Semantic Relation Constrained LDA),用來提取細粒度特征和情感詞.Kamal等人[15]對評論文本進行語言學和語義分析,利用相關規則實現評論文本的產品特征觀點詞對的提取.

其他一些學者基于節點排序算法,將特征詞和觀點詞進行重要性排序.例如郝亞輝[16]將評論中的特征詞和觀點詞間的句法依存關系模式作為HUB節點,再利用HITS算法對候選特征詞和觀點詞進行排序,提高了特征詞和情感詞的準確率.Liu等人[17]提出了一種協同排序算法來估計每個候選詞的可信度,并提取出具有較高可信度的候選詞作為候選目標詞.Zhang等人[18]對特征候選進行特征重要性排序,由特征相關性和特征頻率兩個因素決定,利用HITS算法查找重要特征并將其排序.但這些研究中,都是以等權重的方式處理候選特征詞和觀點詞節點,沒有考慮到節點權重的大小對節點重要性排序的影響.

本文將從二分網絡的節點重要性排序角度來識別特征觀點詞,建立特征-觀點對二分網絡.針對網絡是否加權,分為無權網絡和加權網絡.首先在無權網絡中提出了B-核分解算法,B-核分解算法是將兩類節點的度值作為度量值對節點的重要性進行排序.后針對無權網絡的缺陷改進算法,提出了BW-核分解算法.BW-核分解算法則是將節點的權值作為度量值對節點進行重要性的排序.本文從京東上選取了四種產品的評論數據集作為研究對象,評價指標采用目前廣泛接受的準確率(Precision)和召回率(Recall)、F值(F-measure)來衡量算法的有效性.

2 特征-觀點對二分網絡的構建

2.1 特征-觀點對二分網絡的表示

本文從二分網絡的角度來識別高頻特征觀點詞,因此首先構建特征-觀點對二分網絡.二分網絡是由兩種類型的節點構成,不同類型的節點之間才有連邊.在復雜網絡研究中,對于給定的網絡如果節點集可以分為兩個互不相交的非空子集X和Y,使得中的每一條邊的兩個端點中必定有一個屬于X,另一個屬于Y.則將稱為二分網絡其中在特征-觀點對二分網絡中,包括特征詞和觀點詞兩類節點.X中的元素表示特征詞節點,Y中的元素表示觀點詞節點,E表示連邊即特征詞和觀點詞的修飾關系.典型的特征-觀點對二分網絡如圖1所示.

圖1 特征-觀點對二分網絡圖

2.2 特征-觀點對二分網絡中的度和點權

節點的度是單頂點網絡中常見的基本性質,通常是指與該節點連接的邊的數量.在二分網絡中,一個節點的度同樣也是指與該節點連接的邊的數量,且兩類節點的度之和相等[19].在特征-觀點對二分網絡中,一個特征詞的度即為與其相連的觀點詞的的個數,一個觀點詞的度即為與其相連的特征詞的個數.所有特征詞節點的度之和等于所有觀點詞節點的度之和.用公式表示即為:

3 特征-觀點對提取

本文在無權特征-觀點對二分網絡中,首先提出了將兩類節點的度值作為度量值來評價節點重要性的算法,我們將之稱為B-核分解算法.一般來說,如果僅用節點的度值作為度量值來評價節點重要性是不夠精確的.這是由于現實生活中,許多網絡都是加權網絡,權重及其分布會對網絡的屬性和功能產生重要影響.權重的大小,代表了兩個節點之間聯系的緊密程度.即當兩個節點同時出現的次數越多時,兩者之間存在某種關聯的可能性越大.例如當候選特征觀點詞對總是共同出現時,說明兩者是固定搭配的可能性越大,就越有可能是真正的特征觀點詞.而度只能用來表示兩類節點共同出現過,但共同出現的詞對不一定就是真正的特征觀點詞對.因為在候選特征觀點詞集中,錯誤的特征觀點詞對也會共同出現.相對于度值來說,將權重作為度量值可以更有效地詮釋節點的重要性.所以本文對B-核分解算法進行了調整,提出將權值大小作為評價節點重要性排序的度量值,我們稱為BW-核分解算法.上述兩種算法的目的是對特征-觀點對二分網絡中的節點進行重要性排序,從而識別出中心節點,找出特征觀點詞.

3.1 B-核分解算法

首先計算網絡中每個節點的度值,確定網絡中所有節點的最小度值.通過遞歸地移除網絡中所有度值小于或等于的節點,從而將網絡分成若干層.被去除的節點的集合,稱為網絡的B-shell(B-殼),簡稱.B-shell同時作為節點重要性排序指標,值越大,節點重要性越大.剩下的節點的集合稱為網絡的B-核.以下是B-核算法.

算法1.B-核算法CFO: 候選特征觀點詞集.B: 無權特征-觀點對二分網絡.表示網絡中的節點.Ranking set: 新特征觀點詞排序集.i Step 1: Input: CFO Step 2: 構建網絡B Step 3: Fori inB:E is empty set bmin=min_degree(B)If is feature:i.degree≤bmin i If :i If is opinion:i.degree≤bmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node are recalculated Step 4: Output: Ranking set If :i

通過B-核分解算法能夠確定所有節點在網絡中所處的層級,并給出節點的重要性排序,識別出二分網絡中的中心節點.下面我們用實例對B-核算法進行更加直觀地解釋.首先構建一個無權特征-觀點對二分網絡,如圖2所示.該網絡包含特征詞和觀點詞兩類節點,連邊表示它們之間的修飾關系.例如節點A表示的特征詞是“質量”,那么與它有連邊的節點H、I、J可以分別表示為觀點詞“好”、“差”和“不錯”.每個節點連邊的個數表示此節點的度,例如節點A的度值為b=3,節點L的度值為b=2.

圖2 無權特征-觀點對二分網絡圖

再根據B-核分解算法對節點重要性進行排序,排序結果如圖3所示.該網絡被劃分成3個不同的層,每一層節點的值相等.通過B-核分解算法確定網絡中的核心節點,即值最大的節點是最具有影響力的節點.在此實例中,網絡中的核心節點分別是特征詞節點A、B、D和觀點詞節點H、I、J.這六個節點是該網絡中的中心節點,同時也最有可能是我們要找的特征觀點詞.如圖2所示,特征詞節點A和B分別與觀點詞節點H、I、J一同出現過,特征詞節點D分別與觀點詞節點H、I、L一同出現過.當某個候選觀點詞同時跟幾個候選特征詞共同出現時,說明候選觀點詞H、I、J有可能是真正的觀點詞.同理,當某個候選特征詞同時跟幾個候選觀點詞同時出現時,候選特征詞A、B、D也可能是真正的特征詞.例如,節點A為候選特征詞“質量”,那么節點H、I、J就有可能是候選觀點詞“好”、“不錯”、“差”.通過人工分析我們知道“質量”、“好”、“不錯”、“差”都是真正的特征觀點詞.同理得出特征詞節點B、D和觀點詞節點H、I、J也有可能是真正的特征詞和觀點詞.

圖3 節點重要性排序圖

3.2 BW-核分解算法

首先計算網絡中每個節點的權值,確定網絡中最小的權值bwmin.通過遞歸地去除網絡中所有權值小于或等于bwmin的節點,從而將網絡分成若干層.被刪除的節點集合稱為Bw-shell(Bw-殼),簡稱Bws.Bw-shell同時作為節點重要性排序指標,Bws值越大,節點的重要性也就越大.剩余的節點集合稱為BW-核.

在本文的加權網絡中,我們將權值的大小設置為整數,即bwmin的起始值為整數1.然而在實際生活中,權值的大小并不全是整數,更多的是隨機數.即一個加權網絡中權值有可能是整數,也有可能是小數.所以在本文算法中,我們將參數值設為a≥bwmin.即當參數值a大于或等于網絡中最小權值時,BW-核算法才會以權值為整數進行分解.以下是BW-核算法.

算法2.BW-核算法CFO: 候選特征觀點詞集.B: 加權特征-觀點對二分網絡.表示網絡中的節點.Ranking set: 新特征觀點詞排序集.i Step 1: Input: CFO Step 2: 構建網絡B Step 3: Fori inB:E is empty set bwmin=min_weight(B)a≥bwmin If is feature:i.weight≤bwmin i If :i If is opinion:i.weight≤bwmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node weights are recalculated Step 4: Output: Ranking set If :i

通過BW-核分解算法能夠確定所有節點在網絡中所處的層級,并給出節點的重要性排序,識別出此網絡的中心節點.下面我們同樣用實例來闡述BW-核分解算法.首先構建一個加權特征-觀點對二分網絡,如圖4所示.在該網絡中,節點的權值是指與該節點相連邊的權重之和.其中邊的權重定義為特征-觀點對在數據集中出現的次數,簡稱邊權.例如節點A的權值等于A-I和A-J的邊權之和.假設A-I的邊權A-J的邊權那么節點A的權值

圖4 加權特征-觀點對二分網絡圖

再根據BW-核算法對加權特征-觀點對二分網絡中的節點進行重要性排序,排序結果如圖5所示.該網絡被分成6層,其中處于第6層的節點屬于該網絡的核心節點,也就是影響力最大的節點.通過該分解圖我們還可以發現權值大的節點,并不一定就越接近核心層.例如特征詞節點G,它的權值bw=4,但卻和bw=2的特征詞節點C和H在同一層級.這是由于該候選特征詞很可能是大多數用戶在評論時的習慣用語,雖然出現的次數較多,但并不是真正的特征詞.例如“方面”這個詞語,大多數用戶在評價某產品的特征詞時會習慣地帶上“方面”.比如當某個用戶想表達“質量不錯”這個特征觀點時,往往在評論時會寫成“質量方面不錯”.這時,利用SBV關系不僅能識別出“質量-不錯”這一對正確的特征觀點詞,也會識別出“方面-不錯”這一對錯誤的特征觀點詞.所以利用BW-核算法可以將此類節點排在影響力較小的外層.

圖5 節點重要性排序圖

4 實驗

本文根據二分網絡中節點重要性排序算法即B-核跟BW-核分解算法,對候選特征觀點詞進行排序.為了驗證此算法在識別特征詞和觀點詞方面的有效性,本文將來自京東商城的四種商品的評論文

本作為實驗數據集進行對比分析.分別是樂視手機、洗面奶、華為手機、羽毛球拍.

4.1 實驗數據集

本文首先對評價文本進行依存句法分析.基于產品評論特征詞,利用依存關系提取出與產品特征相關的觀點詞,構成候選特征觀點詞對集.圖6是以樂視手機舉例說明,利用哈爾濱工業大學語言云的句法解析結果.圖中n代表名詞,a代表形容詞,d代表副詞.利用 SBV 關系識別出[屏幕-不錯]、[質量-好]、[內存-大]這三組候選特征觀點詞對.

根據基于SBV關系識別出的候選特征觀點詞對構建二分網絡,特征-觀點對二分網絡數據集如表 1所示.表 1中給出了網絡的一些詳細的統計性質.I–/I+分別表示為無權無向網絡跟加權無向網絡,中表示特征節點總數,表示觀點詞節點總數,表示邊數.

圖6 句法分析結果

表1 特征-觀點對二分網絡數據集

在特征-觀點對二分網絡中,在確定了網絡中各個節點的度值之后,我們可以把網絡中節點的度數按照從小到大排序,從而得到滿足度為的節點總數.我們將這種排序方法稱為節點的度分布.特征詞的度分布即與每個特征詞相連接的觀點詞數量的分布,結果如圖7所示; 觀點詞的度分布即與每個觀點詞相連接的特征詞數量的分布,結果如圖8所示.從圖中我們可以看出在特征-觀點對二分網絡中,隨著度數的增大,兩類節點數均不斷減小,這類具有較高的度值且數量不多的節點就是我們要找的高頻特征觀點詞.比如特征詞中的“外觀”“質量”“價格”等,他們都是具有高連接的節點,即具有較高的度值.比如觀點詞中的“好”、“不錯”、“可以”等也都是具有高連接的節點.這些具有高度值的節點大多都是高頻特征觀點詞,能準確地代表消費者對產品的關注焦點.

4.3 實驗結果

本文采用目前科學研究中廣泛使用的準確率P、召回率R以及F值來衡量算法的性能,各指標越高,說明算法的性能越好.它們的計算公式如下所示:

其中,x、y、z的含義分別為識別出的真正高頻特征觀點詞數、識別出的非真正高頻特征觀點詞數以及未識別出的真正高頻觀點詞數.x+z在本文中表示人工手動標記的數據.

圖7 特征節點度分布

圖8 觀點詞節點度分布

首先根據B-核分解算法對無權特征-觀點對二分網絡中的節點進行排序,即對特征詞和觀點詞進行排序,識別出高頻特征觀點詞.同樣,在加權網絡中,根據BW-核分解算法對加權網絡中的節點進行排序,識別出高頻特征觀點詞.通過對四類產品的數據集處理之后我們發現,無論是在無權網絡還是加權網絡中.隨著層級的增大,特征詞觀點詞的P值是呈上升的趨勢,而R值呈下降趨勢.接下來我們將以樂視手機評論的特征詞為例,分析出現這種結果的原因.在無權網絡中的P、R、F值與值的關系如圖9所示.在加權網絡中的P、R、F值與Bws值的關系圖10所示.

圖9 無權二分網絡P、R、F值分布

圖10 加權二分網絡P、R、F值分布

表2 洗面奶數據分析結果

表3 羽毛球拍數據分析結果

通過對上述實驗結果進行對比分析我們發現在這四組數據中,利用B-核算法提取特征詞的準確率普遍高于BW-核算法.這是由于在候選特征集中,錯誤的特征詞出現的頻率也很高,所以就導致利用加權網絡提取特征詞的準確率比無權網絡低.

表4 樂視手機數據分析結果

表5 華為手機數據分析結果

從表2至表5中我們還可以看出利用無權網絡提取特征詞的召回率普遍較低.這是因為當一個特征詞被多個觀點詞修飾時,這個特征詞是真正特征詞的概率很高,但這并不代表真正的特征詞都會有多個觀點詞修飾.例如在華為手機評論文本中,真正的特征詞“屏幕”可以被真正的觀點詞“大”、“好”以及“清晰”修飾,但真正的特征詞如“像素”卻只能用觀點詞“高”或“低”修飾.因為加權網絡考慮了頻次,出現次數越多是真正的特征詞的概率越大.所以在加權網絡中提取特征詞的召回率高于無權網絡.但通過F值的比較我們發現,無論是哪一類產品評論文本的分析結果,加權網絡的F值均高于無權的網絡.所以實驗結果表明,BW-核算法的性能要優于B-核算法,即在加權特征-觀點對二分網絡中更有利于高頻特征觀點詞的提取.

5 結論

本文針對一個具體的網絡,即對特征-觀點對二分網絡做了詳細分析.將二分網絡節點重要性排序研究引入進高頻特征觀點詞提取研究當中.首先提出了B-核算法,即將節點的度值作為節點重要性排序的度量值.后針對無權網絡中算法的缺陷改進了算法,提出了BW-核算法,該算法是將節點的權值作為節點重要性排序的度量值.通過實驗發現,兩種算法在實際操作中都取得了很好效果.

將復雜網絡中節點重要性排序引入特征觀點詞挖掘研究當中,不僅是意見挖掘領域的一大創新,更是擴大了復雜網絡在實際中的應用.二分網絡是復雜網絡中一種特殊的網絡模式,二分網絡中兩類節點的連邊與單頂點網絡中節點的連邊相比,有更多的意義.所以接下來我們將對兩類節點之間的連接邊做進一步研究,將復雜網絡更好地應用于提取特征詞和觀點詞的研究當中.