?

基于At-LSTM的產品創新特征識別

2022-11-08 10:48黃訓江
東北大學學報(自然科學版) 2022年10期
關鍵詞:向量注意力分類

閆 康,黃訓江,張 強,王 登

(1.東北大學 工商管理學院,遼寧 沈陽 110169;2.安徽美芝制冷設備有限公司,安徽 合肥 230088)

海量在線評論數據中蘊含了豐富的有關用戶對產品特征的情感偏好、產品質量等信息,識別和挖掘用戶對產品的需求偏好信息,并據此改進和創新產品,成為生產企業的核心競爭力所在.已有眾多學者從語法關聯[1]、情感偏好[2-3]等方面對在線評論中產品特征需求挖掘進行了研究,但由于在線評論數據冗余并且數據集成質量較低,同時CNN(convolutional neural network),RNN(recurrent neural network)等深度學習方法多存在上下文信息缺乏、梯度消失或爆炸等缺點[4-5],在利用在線評論研究消費者需求偏好上存在諸多不足,并且針對整條評論的情感分類不能有效分析某一方面屬性的情感傾向.基于此,本文構建了基于注意力機制的LSTM(long short term mamery)用戶產品特征偏好識別模型,更加有效、精準地提取用戶對產品各項特征粒度更細的需求偏好信息.針對用戶需求特點,對傳統Kano模型添加特征覆蓋程度指標,更好地融合蘊含用戶細粒度情感偏好的產品特征,進一步對所識別出的用戶需求信息進行層次化處理.

1 相關研究

基于在線評論的產品特征提取研究主要有兩類.一是基于統計方法的產品特征提?。篧ang等[6]應用啟發式規則和語義詞典分析產品特征之間的近似關系,Li等[7]使用點互信息提取產品特征,但基于統計方法的產品特征提取效果不佳且可移植性較差.二是基于機器學習的產品特征提?。篔in等[8]在隱馬爾可夫模型框架下提出將詞性信息與詞匯化技術相結合的混合標注方法,Wan等[9]根據中文在線評論語法結構,歸納特征與觀點的關聯,作為先驗知識添加到LDA(latent dirichlet allocation)中,在特征詞和觀點詞的提取上取得了更好的準確率和召回率.基于機器學習的產品特征提取,在一定程度上克服了基于統計方法的不足,提高了特征提取的效率.

用戶對產品特征存在著不同的情感偏好,Sharma等[10]基于SentiWordNet詞典計算評價詞的情感傾向,Viegas等[11]進一步提出了基于嵌入詞語義關系的詞典擴展策略,在很大程度上克服了詞匯覆蓋的主要問題,但仍然存在無法考慮上下文語境、結果穩健性不好等缺陷.基于機器學習的情感分類彌補了情感詞典的缺陷,Giachanou等[12]基于點互信息(pointwise mutual information,PMI)判定互聯網網絡信息對利益實體的正負面影響.深度學習是在機器學習基礎上延伸出來的算法模型,在文本處理等諸多領域取得了優異的效果.Yang等[13]通過詞嵌入實現了基于卷積神經網絡的微博評論句子級情感分類.Song等[14]將注意力機制與RNN相融合,通過多通道卷積網絡的設計提取局部語義特征來實現文本分類.Mohammed等[15]將CNN,LSTM和RCNN(region-CNN)用于阿拉伯語語言情景下的情感分析,結果表明LSTM的分類效果優于CNN和RCNN.Yu等[16]提出了面向目標的多模態BERT(TomBERT)體系結構,在Twitter數據集上驗證了該方法在檢測目標情緒上的有效性.

既有研究尚存在粒度粗以致不能明確特征的情感傾向等問題,且所識別的產品特征未予考慮其對用戶需求滿足程度的不同.本文通過基于注意力機制的LSTM模型的構建,嘗試從細粒度情感分類角度提取在線評論中的產品特征及其用戶情感偏好,結合Kano模型[17]對所提取的產品特征用戶需求層次類型進行劃分,將在線評論所蘊含的用戶需求信息轉入產品的改進與創新過程之中,推動企業產品更有效地滿足市場需求,提升企業的市場競爭能力.

2 模型設計

本文構建了一個基于At-LSTM的產品創新特征識別流程框架模型,從在線評論語句中準確識別出不同用戶偏好的產品特征,為產品創新改進提供決策支持.該框架模型主要由數據采集處理、評論篩選及產品特征識別、情感分類及基于Kano模型的需求分析和優化四部分組成,如圖1所示.

圖1 基于At-LSTM的產品創新特征識別流程

首先,利用網絡爬蟲獲取評論數據并剔除噪音數據.對評論文本進行分句、分詞、詞性標注、詞頻統計及剔除不相關詞匯.其次,結合產品文檔及情感詞典計算語料集詞語與種子詞語義相似度,合并相關同義詞匯形成產品特征詞庫與情感詞庫.通過詞庫對有用性評論進行篩選,以增強產品特征需求識別的精準程度.再次,在對注意力機制、LSTM神經網絡既有研究分析的基礎上,構建了基于注意力機制的LSTM情感識別模型,用以預測在線評論數據集中產品特征的情感傾向,整理并形成各品牌特征的細粒度情感數據.最后,在對Kano模型重新定義和改進的基礎上,將相關產品特征指標及模型預測結果與Kano模型相關聯,分析各特征對用戶需求的滿足程度,進而提出具體詳盡的產品創新改進建議.

2.1 模型基礎結構

2.1.1 注意力機制

注意力機制通過學習參數賦予句子中重要信息更多的權重,旨在學習單詞與特定任務的關聯程度.其基本思想是計算每個標記的注意力分數并相應地調整輸入向量,主要分為三個階段:第一階段,引入向量點積、余弦相似性等函數方法計算查詢(q)和鍵(k)之間的相關性;第二階段,引入Softmax函數以歸一化第一階段生成的數值w,見式(1),并將其轉換為概率分布,以凸顯重要成分的權重,第i個位置元素的權重系數用ai表示,見式(2);第三階段將權重系數和相應位置的值進行加權求和,計算結果即為注意力值,見式(3).

wi=f(ki,qi),

(1)

(2)

Attention=∑iαivi.

(3)

2.1.2 LSTM神經網絡

LSTM采用多個細胞單元從嵌入向量中提取情感信息,每個單元分別由輸入門、遺忘門和輸出門組成,通過Sigmoid函數和逐點相乘的操作來控制和更新信息.對于任一詞向量xt∈Rm,m為向量空間維度,X={x1,x2,…,xn}為評論文本向量集合,則LSTM用于文本情感分類流程為:第一步信息通過遺忘門,然后決定需要保留哪些信息,決定上一時刻輸出st-1和細胞單元狀態ct-1是否會存儲到當前的細胞單元狀態ct中;第二步輸入門將決定進入單元狀態ct的信息量,從而更新當前時刻的輸入xt,首先讓信息經過Sigmoid層決定哪些需要更新,然后讓其經過tanh層生成一個向量,作為下一步需要更新的內容,實現細胞單元狀態的更新;第三步輸出門控制細胞單元狀態ct的輸出量,通過Sigmoid層進行信息過濾處理,以篩選出細胞單元狀態中部分信息輸出,將輸出的細胞狀態ct經過tanh層處理,并與Sigmoid層輸出相乘,得到有選擇性的部分輸出st.

2.2 基于注意力機制的LSTM情感模型構建

LSTM在情感分類中已有諸多應用[18-21],但粒度較粗.LSTM根據時間序列按順序計算文本特征,遠程相互依賴的特征則需要多次積累信息才能進行關聯,依賴特征間距越遠捕獲的概率越小,而注意力機制不僅能考慮句子的不同方面,還能捕捉句子的重要部分,通過計算將句子中的任何兩個單詞關聯起來,可以更為有效地利用文本中的重要信息特征來實現文本分類.基于此,本文提出一種面向句子中詞語結構的自我注意力機制,以捕獲句子中相互關聯且間距較長的特征.

1)輸入層.假設評論文本中包含n個詞匯,用[w1,w2,…,wn]表示.將詞匯轉換成數值向量,從而得到文本輸入矩陣Rn×d,n為詞匯數量,d為詞向量維度.

2)注意力機制層.得到詞向量后輸入到注意力機制層,利用注意力編碼器使詞向量與隨機初始化的權重相乘創建查詢向量(q)、鍵向量(k)和值向量(v).通過查詢向量與鍵向量的點積來計算詞注意力分數,分數決定了一個句子對某個位置詞語進行編碼時,在輸入句子其他部分上需要投入的關注程度為

(4)

其中:αi為注意力分數;d為向量的維度.最后將注意力機制分數與值向量v加權得到各單詞的輸出值zi.

3)LSTM層.輸入向量zi,LSTM層生成了一系列的隱藏狀態hi∈Rn×dh,n為任意一條語句中單詞個數,dh是隱藏狀態的向量維度,來學習句子和目標詞的隱含語義.

4)Dropout層.在全連接層之前,神經網絡的學習能力隨著神經元數量的增加而增加,同時,學習率越高,機器學習能力越強,但網絡易于發生過擬合現象,故隨機剔除神經網絡中部分神經元以解決過擬合問題,提高模型的泛化能力.

5)全連接層.全連接層連接LSTM層輸出的隱藏狀態hi,根據LSTM神經網絡分類原理,得到si作為文本語句特征向量表示,則任意一條文本特征向量表示為si=[h1,h2,…,hn].

6)輸出層.將特征向量si輸入到Softmax分類器中,輸出對該文本情感分類的預測概率,得到模型文本情感分類的結果為

y=Softmax(wlsi+bl).

(5)

其中:wl∈Rc×d和bl∈Rc×d分別為相應的權重和偏置向量;c和d分別代表情感分類的類別和LSTM層中隱藏狀態的向量維度.LSTM以最小化交叉熵損失為訓練目標,利用L2正則化函數訓練模型,如式(6)所示:

(6)

2.3 基于Kano模型的產品需求分類與優化

為充分挖掘用戶需求層次信息,在已有產品特征頻率、情感系數等需求分類指標的基礎上,添加特征覆蓋程度指標,把產品特征需求劃分為魅力需求、期望需求、基本需求、無變化需求和反向需求這五類.產品特征頻率(Fi)、特征覆蓋程度(Ci)及產品特征情感系數(Ei)計算公式分別為

(7)

(8)

(9)

(10)

表1 基于Kano模型的需求分類

魅力需求是指超過消費者預期的產品特征,具有較低的產品特征頻率和特征覆蓋度,得以滿足時,正向情感系數遠大于負向情感系數.期望需求具有較高的產品特征頻率和特征覆蓋度,其情感系數隨產品特征滿足消費者預期程度而變化.基本需求一般具有較低的特征頻率和較高的特征覆蓋度,其情感系數亦隨產品特征對用戶期望的滿足程度而變化.無變化需求是指具備與否都不會引起消費者情緒變化的產品特征,具有較低的產品特征頻率和特征覆蓋度,負向情感系數與正向情感系數近似相等.反向需求是其性能提升會引起用戶強烈不滿的產品特征,故其負向情感系數遠大于正向情感系數,具有較低的特征覆蓋度和特征頻率.根據上述指標將產品特征分類到不同的需求類別中,分析消費者不同需求滿足程度,并通過魚骨圖排查問題的原因,為產品創新改進提供參考.

3 實驗結果及分析

綜合考慮產品上市時間、價格、以及銷量等因素,選擇華為、Vivo、Oppo、小米四大品牌手機作為研究對象,在淘寶和京東平臺上爬取評論共14 493條.

3.1 有用評論篩選

分句后共獲得短文本評論108 013條,進行分詞、去停用詞、詞性標注等工作.詞頻統計后選取詞頻大于20的名詞及名詞短語進行剪枝處理,構成初始產品特征詞庫,剪枝策略為:①不具有屬性特征的名詞;②人工識別難以特征分類的名詞.通過相似度擴充產品特征詞集,結合手機技術參數及Zhang等[22]的研究,確定出消費者最關注的網絡、電池、價格、外觀、音質、系統、配件、屏幕、像素、性能及服務11個產品屬性維度,聚類整合后構成最終特征詞庫,依據此方法構建情感詞庫.對評論數據進行篩選后得到有效評論20 716條,標注篩選后的評論6 248條,以7∶3的比例隨機分為訓練集和測試集對模型進行訓練.選擇CBOW算法,向量維度為100,上下文窗口為5,最小詞頻為10,采樣閾值為1×10-3,迭代次數為5,Workers數量為4.

3.2 At-LSTM模型實驗結果及分析

3.2.1 參數選擇及性能評價

經過迭代訓練,選擇了以下幾種不同結構類型的模型分類器,各個參數具體數值如表2所示.使用網格搜索方法來確定最優參數組合,以測試集準確率為評判標準,獲得各個參數值組合下模型分類的準確率,對結果進行比對,當參數Batch_size=9,Epoch=16,Dropout=0.090時,測試集準確率最高,模型的分類效果最好.

表2 參數及數值

選擇K近鄰(KNN)、支持向量機(SVM)、樸素貝葉斯(NB)以及長短時記憶網絡(LSTM)四種較為典型的學習算法,利用準確率、精確率和召回率三個指標作對比分析,結果如表3所示.

表3 不同模型性能比較

3.2.2 情感分類

利用訓練好的At-LSTM模型,預測未標注的數據集的情感傾向.結合產品特征詞表,計算出各個品牌中包含各個特征的正負情感語句數量.設定閾值10,篩選出包含特征情感傾向數量較少的語句,最后整理得到各品牌中細粒度情感傾向語句數量.以oppo手機為例,各特征情感語句數如表4所示,整體上的情感更傾向于負向情感,僅網速、待機時間、外觀三個特征呈現出正向趨勢.

表4 特征情感文本數量

3.3 基于Kano模型的需求分析與優化

表5 產品特征需求分類系數表

圖2 期望需求、魅力需求中產品特征問題

手機在線評論數據的實驗結果表明了本文所構建的At-LSTM模型對細粒度產品創新特征識別的有效性.能夠以較高的性能實現在線評論細粒度特征情感分類,同時在Kano模型中添加了特征覆蓋程度指標,能夠將特征屬性匹配到不同的需求類別,進而能夠分析其對用戶預期的滿足程度.與魚骨圖的結合便利了對用戶需求問題根源的探尋,為產品的優化設計提供了具體的改進方向.

4 結 語

為從海量的購物評論中精準地挖掘出人們對商品某一特征方面的需求偏好,本文構建了基于At-LSTM模型的產品創新特征識別流程框架模型,改良了評論有用性篩選方法.構建的基于注意力機制的LSTM情感分類模型的準確率、精確率和召回率分別為91.52%,91.73%,91.53%,相較KNN,NB,SVM等模型均有所提升.進一步結合Kano模型,將產品特征劃分為不同的需求類別,據此分析出沒有滿足消費預期的產品特征,并列出魚骨圖分析具體相關原因,為產品創新優化指明方向.本文在虛假評論篩選、Kano模型閾值設置等方面尚有待改進之處,未來,在對虛假評論予以剔除的同時,應考慮閾值設定對產品特征用戶需求分類的影響,以便提供一種更廣泛和穩健的方法.

猜你喜歡
向量注意力分類
向量的分解
讓注意力“飛”回來
聚焦“向量與三角”創新題
如何培養一年級學生的注意力
按需分類
教你一招:數的分類
說說分類那些事
A Beautiful Way Of Looking At Things
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合