?

利用協同神經網絡的學者情感分析

2024-03-08 12:02廣東司法警官職業學院賴河蒗廣東省外語藝術職業學院王麗麗林肖麗廣東司法警官職業學院李玲俐許學添陳麗儀
廣東教育 2024年2期
關鍵詞:參量特征向量原型

文/廣東司法警官職業學院 賴河蒗 廣東省外語藝術職業學院 王麗麗 林肖麗 廣東司法警官職業學院 李玲俐 許學添 陳麗儀

引言

隨著社交網站的發展和智能終端的普及,越來越多的學者利用學術社交網站(Academic Social Network Sites,ASNS)開展各種學術社交活動,例如學者用戶可以在ASNS上獲取學術信息、聯絡學術朋友、發表學術觀點、討論學術話題、開展科研協作、交流學術經驗、參與同行評議、分享科研成果以及共享學術資源等。[1,2]ASNS主要是針對學術信息共享和學者交流而建立的網站,對學者之間的交流、通信和合作方式等產生了深刻的影響。學者網(SCHOLAT,https://www.scholat.com/)是國內具有高影響力的ASNS,為科研學者提供了高效便捷的交流渠道,整合了共享和交流兩大核心功能,體現了共享、和諧、友好和協作等理念。學者網既是一個匯集了文本圖像等模態數據的學術社交平臺,也是學術研究者之家園,國內外許多學者已經加入到這個平臺。在這個平臺上,學者可以簡單快捷地公開或發布學術動態信息,可以輕松方便地發現或聯系與自身研究領域相關的同行學者,可以高效地傳播或推廣學術相關的信息。相關學者用戶發布動態信息之后,其他感興趣的學者可以及時了解,也可以對動態信息表達出自身的一種情感。例如,某學者對于某一條動態信息表達支持、認同、肯定或同意等情感時,最常見的方式是點贊、轉發或收藏該條動態信息,或者是對該條動態信息發表正面評論。反之,如果某學者對某條動態信息持一種中立、忽視或否定等情感時,通常的方式是瀏覽完后離開頁面,或者對動態信息發表相關負面評論。

學者或學術研究人員是一個較為特殊的群體,他們對社會的影響往往也是巨大的。因此,學者們在ASNS上的個體使用行為值得關注。學者的行為與學者的情感是緊密相關的,對學者的情感開展相關研究,有助于及時了解學者的情感傾向,可以為學者推薦其感興趣的相關領域的學術動態信息,也可以促進學者相互之間的交流。[3]本文基于學者網平臺,利用平臺的數據資源,提出了一種基于協同神經網絡(Synergetic Neural Network,SNN)的學者情感分析模型,旨在分析和挖掘學者對學術動態信息的情感。在基于學者網的學者情感數據集上開展了相關實驗,結果顯示,本文所提出的模型可以獲得良好的學者情感分類性能。

一、相關工作

情感分析也稱為觀點挖掘,是人工智能或自然語言處理領域的重要研究內容之一。[4,5]通常是指對帶有情感色彩的主觀性數據進行處理、挖掘和推理等過程。在近些年,神經網絡的浪潮再次掀起,其在很多研究應用領域發揮了重要的作用??蒲袑W者期望使用神經網絡的顯著優勢來解決或優化一些用傳統方法難以解決的問題,當前已有很多學者利用神經網絡的優勢開展了情感分析的研究工作。[6-17]方悅等提出了一種雙通道卷積神經網絡和循環網絡變體的特征融合情感分析模型,能夠獲取更全面的情感特征。[6]王宇欣等從不同角度對注意力機制進行分類并闡述了注意力機制結合各類神經網絡模型在情感分析中的應用。[7]楊青等提出了一種注意力機制和門控單元融合的情感分析模型,提升了捕獲文本上下文語義和提取文本內重要信息的能力。[8]Poria等提出了多層次多注意力機制的上下文多模態情感分析模型,在捕獲上下文信息方面取得了良好效果。[15]Majumder等提出了一個帶有注意力機制的循環神經網絡,改善了會話情緒檢測效果。[16]Hazarika等利用模態的不變性和專屬性對多模態情感分析進行建模,將每個模態投射到兩個不同的子空間,取得了良好的實驗效果。[17]

SNN是一種典型的自組織神經網絡模型,通過自上而下的方式構造網絡,從動力學方程出發,利用協同學中的支配原理和勢函數機制,利用網絡的內部競爭與合作過程作為網絡的運行機制。SNN具有訓練時間短、網絡收斂快、能夠在數學意義上嚴格處理網絡的行為、其序參量的演化過程符合人的認知過程以及有較高的可解釋性與可類比推理性等優點。已有學者利用SNN開展了相關研究工作。郭巍等提出了基于協同神經網絡對軍事目標進行識別的方法,并通過仿真驗證了其方法的有效性。[18]張愛華提出一種動態協同神經網絡算法,采取了注意參數動態調整的策略,在演化過程中對誤識別的模式進行自適應糾正,實驗表明提高了網絡的自學習能力和分類的精度。[19]緱水平等提出了基于免疫克隆聚類的協同神經網絡原型向量求解算法,可以提高網絡的識別性能。[20]孫靜提出了一種基于協同神經網絡算法的紅樹林圖像識別方法,利用微粒群算法對平衡參數方法進行改進后識別效率得到改善。[21]

學者網創立于2009年。自創立以來,學者網受到了廣泛的關注和肯定。很多科研學者紛紛基于該平臺開展了相關研究,例如進行教學模式挖掘[22]、教學平臺研究[23]、學者論文與項目關聯模型挖掘[24]、學者推薦[25]以及社區發掘[26]等。以上工作都是基于學者網開展的相關研究,也都取得了一定成果,但是目前還沒有研究人員針對學者網中的學者情感數據開展研究。學者的情感表達模式相對比較穩定,利用SNN對學者情感進行建模,有望能獲得良好的情感識別性能,進而為提高推薦系統的性能提供實踐導向。學者網中蘊藏著豐富的學者情感數據,可以為本研究提供數據支持?;谝陨?本文提出利用協同神經網絡的學者情感分析模型。

二、模型框架

(一)SNN原理

協同學的創始人是德國物理學家Haken(哈肯)教授。在20世紀70年代,哈肯深刻闡述了協同的概念。[27]在20世紀90年代,哈肯將協同學思想擴展到計算機科學和認知科學,并且將原理運用于模式識別,提出了基于協同學的神經網絡,即協同神經網絡(Synergetic Neural Network,SNN),或稱之為協同計算機[28],圖1是SNN的基本結構圖。

圖1 SNN的基本結構圖Fig.1 The structure of SNN

SNN通過構造非線性動力學系統的動態過程來實現模式識別的功能,即模式識別過程對應于一個動力學過程。具體來說,一個初始的實驗模式q,經過動力學過程的若干中間狀態演化后,進入到諸原型模式中的其中一個原型模式(假設為νk),即這個原型模式νk與q最為靠近。這個過程可描述為:

q(0)→q(t)→νk

(1)

哈肯指出,完成動力學過程需要具備兩點:第一,系統的勢函數可微,具有多個分別與原型向量相對應的穩定平衡點,所構造的神經網絡穩定收斂;第二,具有對應于記憶樣本的全局漸進穩定的唯一平衡點,無偽狀態。為此,引入了勢函數:

(2)

該勢函數對應的動力學方程為:

(3)

直接對式(3)進行非線性運算時的運算量是非常巨大的,為了簡化原系統(原系統的動態特性保留),引入了序參量ξk。將實驗模式q在原型模式向量上分解為:

(4)

(5)

(6)

式(6)是微分方程,其求解仍然較為復雜。在實際應用中,往往使用離散協同神經網絡,其動態迭代公式為:

(7)

(二)結構組成

圖2展示了基于協同神經網絡的學者情感分析模型結構。

圖2 模型的框架圖Fig.2 The framework of the model

選取學者信息和動態信息作為數據源,對兩方面的信息進行屬性選擇與預處理,得到模型輸入的特征數據集。具體而言,在學者信息方面,首先選擇學者的個人簡介(主要包括研究興趣和教育背景等)、學術成果(包括發表的部分論文和著作)、工作經歷或者獲獎榮譽等作為屬性,然后將選擇屬性對應的內容進行預處理,最后形成學者信息的特征向量scholarVector。同理,在動態信息方面,首先選擇該動態信息的類型、摘要、部分關鍵文字內容或者代表性圖片等作為屬性,然后將選擇屬性對應的內容進行預處理,最后形成動態信息的特征向量dynamicInformationVector。當某個學者瀏覽了某條動態信息,該學者與該條動態信息之間會產生一個情感事件(該事件可以反映學者對動態信息的情感傾向)。將情感事件中的學者信息特征向量scholarVector和動態信息特征向量dynamicInformationVector進行級聯,可以得到情感事件的特征向量sentimentEventVector。學者信息、動態信息以及情感事件三者之間的關系可以用圖3來表示,圖中的每一條邊可以代表一個情感事件,邊上的數值可以代表級聯后的特征向量sentimentEventVector。

圖3 基于動態信息的學者情感事件關系圖Fig.3 The relationship graph of scholar emotion event based on dynamic information

本研究選取學者網平臺中產生的部分情感事件作為特征數據集,并且將特征數據集劃分為訓練集和測試集。在訓練集中選取原型模式,并且通過學習訓練,求得伴隨向量。測試集中的數據為實驗模式向量,在測試時與求得的伴隨向量相乘,可以得到初始的序參量。初始序參量進行演化,直至達到穩定狀態。當序參量達到穩定狀態后,輸出識別結果。

三、模型過程描述

模型的過程分為兩個階段,分別是訓練階段和識別階段。訓練階段主要是要完成網絡學習,求取初始化序參量。識別階段主要是將各個初始序參量引入競爭方程,進行動力學演化,使得與實驗模式相似度最大的序參量獲勝,最后輸出識別結果。

(一)訓練階段

①選取原型模式。將訓練樣本對應的特征向量進行處理,使其滿足歸一化和零均值條件。依據動態信息的不同類別,經過相關變換計算,可以獲得滿足歸一化和零均值條件的原型模式向量。

②求解伴隨向量。利用偽逆矩陣進行求解,并且存儲其數據。在SNN中求取伴隨向量的過程被稱為SNN的學習過程或者訓練過程,原型向量和伴隨向量需滿足正交條件。

(二)識別階段

訓練完畢之后,按照SNN的結構(如圖1),將伴隨向量作為輸入層到中間層之間的權重,將原型向量作為中間層到輸出層之間的權重;中間層神經元的個數設置為原型模式個數(M)。

識別階段主要有以下步驟:

①將測試樣本對應的試驗模式向量進行處理,使其滿足歸一化和零均值條件,并且將其作為網絡輸入層。輸入層的數據與網絡參數(即伴隨向量)相乘,得到初始的序參量。在初始時刻,具有最大值的序參量對其他序參量的抑制力最強,其生長能力也最強,在競爭層競爭能力也最強。

②序參量根據式(7)進行演化。SNN以內部互相協作與競爭的形式生成最終模式。

③判斷演化是否穩定,若演化穩定,則輸出識別分類結果,即最終序參量模值為1的類別為測試樣本所屬的情感類別;若演化未穩定,則轉上一步繼續演化,重復此過程直到出現演化穩定狀態。

四、實驗與分析

(一)數據集介紹

實驗選取了部分具有代表性的學者情感事件作為實驗的數據集。數據集中有一半事件是帶有正面情感,另一半事件是帶有非正面情感,即共有兩種不同的學者情感類型。其中正面情感事件是指學者對動態信息有點贊、轉載或收藏等行為之一;非正面情感事件是指學者對動態信息沒有點贊、轉載和收藏等行為。

(二)參數設置

利用Doc2vec對學者信息和動態信息進行預處理,分別得到100維度的學者信息特征向量scholarVector和100維度的學術動態特征向量dynamicInformationVector。將scholarVector和dynamicInformationVector進行級聯,得到200維度的情感事件特征向量sentimentEventVector。設置SNN中的注意參數λk=1,γ=1/D,B和C均為1,迭代次數為40次。按照不同的學者情感類型,將訓練集中樣本的特征向量sentimentEventVector進行數學平均化,得到原型向量。原型模式個數M為2。實驗以分類準確率作為評估指標來衡量模型的性能效果。實驗將數據集隨機打散,按照一定比例劃分出訓練集,剩余部分作為測試集。具體是,實驗將訓練集所占比例分別設置為20%、30%、40%、50%、60%、70%和80%。在訓練集占比例為以上各種不同取值的情況下,實驗都隨機運行10次,并且取運行結果的平均值作為性能評估的數據。

(三)結果與分析

表1匯總了模型在訓練集占不同比例情況下的分類準確率,當訓練集占比為80%時,模型可以得到準確率為98%的分類性能。

表1 模型在訓練集占不同比例情況下的分類準確率Table 1 Classification accuracy of model in different proportion of training set

從表中可以看到,隨著訓練集占比增大,分類準確率也相應得到了提高。原因是隨著訓練集占比增大,通過平均化后,獲得的原型向量更加具有代表性,使得識別階段獲得的效果更佳。因此,這種情況驗證了基于SNN的模型性能與原型模式向量的選取有著重要的關系。

圖4描述了當訓練集占比為80%時,模型對某測試樣本的識別過程。從圖中可以看到,測試樣本向量初始序參量中ξ(1)模值大于ξ(2)模值,在迭代演化過程中,ξ(1)一直保持優勢,并且最終ξ(1)趨向于1,ξ(2)趨向于0,從而使得測試樣本被識別為第一種學者情感類別。模型對學者情感的最終識別結果為具有最大模值的序參量對應的情感類別。

圖4 訓練集占比為80%時測試樣本的序參量演化過程Fig.4 Evolution process of order parameters of a test sample with 80% training set

結語

本文基于學者網平臺的學者情感數據,運用SNN原理與基本結構,構建了學者情感分析模型,詳細介紹了所提出模型的結構組成以及原理,闡述了模型兩個階段的步驟過程,并且開展了相關實驗,旨在挖掘和預測學者對學術動態信息的情感。當實驗訓練集占比為80%時,本文模型可以得到準確率為98%的分類性能。下一步將細化學者情感類別,擴大學者情感事件的數據集,研究更好的原型選取方法。

猜你喜歡
參量特征向量原型
二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
克羅內克積的特征向量
包裹的一切
《哈姆雷特》的《圣經》敘事原型考證
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
論《西藏隱秘歲月》的原型復現
原型理論分析“門”
環形光的形成與參量的依賴關系
含雙參量的p-拉普拉斯邊值問題的多重解
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合