楊睿 劉家興 宋夢嬌 徐俊浩 李冉冉 王力卉
摘要:本文著眼于大眾情感需求,利用日益完善的人工智能技術,實現人機間情感交流,為人類創造一個可以向人工智能程序尋求陪伴、盡情傾訴的機會。該研究致力于利用與人工智能的人機交互,結合互聯網時代心理咨詢服務的特征,填補大眾情感缺口。
關鍵詞:情感傾向分析;語義識別;人工智能;人機交互
1、 緒論
情感識別作為情感計算的一個關鍵分支,同時也是語義識別的一個重要應用方向,涉及到心理分析、人工智能、信號處理等多個技術領域,具有很高的研究價值,已經被應用于情感陪伴、心理評估、輿情分析等多個方向。
由于現代語言,尤其是網絡用語的多樣性,傳統文本主題分類方法不能有效完成情感傾向識別?;谡Z義特征的情感傾向識別方法,可以分析得出原始文本所包含的明確情感傾向,更有利于完成情感區分。
實現基于人工智能技術的情感語義識別應用,需從語言語義識別和情感傾向分析兩方面展開研究,其中情感傾向分析是關鍵環節。
2、 語言語義識別研究
2.1語義的表示
自然語言可通過分布語義,框架語義,模型論語義等三種主要途徑進行表示。還可使用領域(domain)、意圖(intent)、詞槽(slot)等三種形式來表示語義。
(1)領域(domain)
通常按語言數據來源來劃分領域。統一行業背景或專業范圍內的語言數據劃分為統一領域,如醫療、交通等。領域在語法中可看作句子的主語。
(2)意圖(intent)
意圖類似語法中的謂語,是指對語義領域內數據進行的動作或操作,比如查找交通等。
(3)詞槽(slot)
指語義領域的屬性,可看作語法中的賓語,如交通類型。
2.2語義識別的層次
(1)應用層
應用層是指語義的使用層面,如行業應用等。
(2)NLP技術層
NLP技術層是指對自然語言經過技術手段進行加工、處理轉化成機器語言,或將機器語言合成自然語言。
(3)底層數據層
底層數據層是指語義的領域來源。
3、 情感傾向分析研究
情感傾向性分析又稱情感分類,是指針對給定的文本,識別其情感傾向是積極的還是消極的,或者是正面的還是負面的,是情感分析領域研究最多的問題。
通常網絡文本包含大量主觀性內容和客觀性內容。其中客觀性內容是對事物的客觀描述,不帶有感情色彩和情感傾向;而主觀性內容則是筆者對客觀事物的看法及思考,帶有或強或弱的喜好厭惡等情感傾向。
顯而易見,情感分類的對象是帶有情感傾向的主觀性文本,因此情感分類首先要進行內容的主客觀性分類。文本的主客觀分類主要以情感詞識別為主,利用基于情感詞典的特征表示方法和分類器進行詞匯的主客觀性識別分類,能夠提高情感分類的速度和準確度?;谇楦性~典的方法具體來說就是,先對文本進行分詞和停用詞處理等預處理工作,再利用構建好的情感詞典,對文本進行情感傾向分析,即字符串匹配,從而挖掘正面和負面情感信息。
下面分別介紹情感詞典構建和情感傾向分析的情況。
3.1情感詞典構建
情感詞典的構建是情感分類的前提和基礎。實踐中的情感詞典可歸為4類:通用情感詞、程度副詞、否定詞、領域詞。一般詞典使用過程中包含兩部分,詞語和權重。
現階段情感詞典的構建方法主要是利用已有電子詞典進行擴展,例如對經典詞典WordNet的擴充,在建立種子形容詞詞匯表的基礎上,利用WorldNet中詞間的同義和近義關系判斷情感詞的情感傾向,并以此來判斷觀點的情感極性。如確有需要,也可通過語料來訓練新的情感詞典,或建立專門的領域詞典,以提高情感分類的準確性。
實際工作中有很多開源情感詞典可供選擇,例如BosonNLP情感詞典。該詞典是基于微博、新聞、論壇等數據來源構建的情感詞典。此類開源詞典還有知網情感詞典等,大大降低了情感語義識別應用開發者的工作難度,有效調高其工作效率和質量。
3.2 情感傾向分析
(1)情感詞典文本匹配算法
基于語義情感詞典的傾向性計算不同于以來大量訓練數據集的機器學習算法,主要是利用情感詞典及句式詞庫分析文本語句的特殊結構及情感傾向詞,采用權值算法代替傳統人工判別或僅利用簡單統計的方法進行情感分類。
基于詞典的文本匹配算法相對容易實現,效率較高。此類算法的原理是,完成語句分詞后,逐個遍歷所得詞語。如果有詞語命中詞典,則進行相應權重處理:
①正面詞權重為加法;
②負面詞權重為減法;
③否定詞權重取相反數;
④程度副詞權重則與其所修飾詞語權重相乘。
(2)傾向性計算算法
前文介紹的情感詞典文本匹配算法給情感強度不同的情感詞賦予不同權值,之后就由傾向性計算算法進行加權求和,最終輸出的權重值,就可以區分文字所表達的是正面的、中性的,還是負面的情感了。
利用如式(1)所示加權平均算法計算,可有效提高通用領域情感分類的效率和準確率。
其中,Np、Nn分別代表表達正面情感和負面情感的詞匯數目;wpi、wpj分別代表正面情感詞匯和負面情感詞匯的權值。
(3)確定閾值判斷文本傾向性
一般情況下,加權計算結果為正,是正面傾向;結果為負,是負面傾向;得分為零則表示無傾向。一般采用自然語言中經常使用的正確率、召回率和方差分析F值來評判算法效果。
以上情感傾向分析過程如圖1所示。
基于情感詞典的方法和基于機器學習的分類算法相比,雖屬于粗粒度的傾向性分類方法,但由于不依賴標注好的訓練集,實現相對簡單,對于普遍通用領域的網絡文本可有效快速地進行情感分類。
4、 結論
本文深入研究了情感語義識別技術,利用情感詞典對文本內容進行情感分析。本文所提出算法可以自動識別文本中的核心實體詞,對包含主觀信息的文本進行情感傾向性判斷。由于采用了開源情感詞典和相對粗顆粒的情感傾向分析算法,本文所設計應用的情感判斷效果還有待提高。訓練針對性更強的情感詞典,以及引入可以使得分析算法更精細的神經網絡技術,應是未來研究中重點考慮的方向。
參考文獻:
[1]劉騰飛,于雙元,張洪濤等.基于循環和卷積神經網絡的文本分類研究[J].軟件,2018,39(01):64-69.
[2]吳亞熙,岑峰.基于卷積神經網絡的多層級目標檢測方法[J].軟件,2018,39(4):164-169.
課題項目:本文為沈陽師范大學校級大學生創新創業訓練計劃資助項目《基于語義識別的人工智能陪伴app——“智慧陪伴”》(項目編號:202113067)成果。