?

前綴字母為特征在維吾爾語文本情感分類中的研究

2016-11-15 20:19高陽冉興萍木合塔爾·艾爾肯
科教導刊 2016年26期
關鍵詞:詞綴機器學習

高陽++冉興萍++木合塔爾·艾爾肯

摘 要 在構詞法上,主要通過詞根和詞干上加上各種詞綴而形成新的詞語,屬于黏著型語言。構詞的詞綴豐富,有名詞詞綴、動詞詞綴、形容詞詞綴、數詞詞綴等。詞綴具有很強的專有性,其專有性在詞綴上會有明顯的表現,可用來做情感分類特征。本文提出了使用切詞前綴的方式,研究了詞綴在SVM-KNN分類器中的表現。

關鍵詞 情感分類 詞綴 SVM-KNN 機器學習

中圖分類號:TP18 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2016.09.063

A Study on the Characteristics of Prefix Letter in Uyghur

Language Text Sentiment Classification

GAO Yang[1], RAN Xingping[1], Muhtar Erkin[2]

([1] Department of Computer Engineering, Changji University, Changji, Xinjiang 831100;

[2] College of Software, Urumqi Vocational University, Urumqi, Xinjiang 830008)

Abstract In word formation, mainly through roots and stems with a variety of affixes and the formation of new words, which belongs to agglutinative language. Word formation affixes are rich, noun affixes, verb affixes, adjective affix and affix numerals. Affix has a strong specificity, its specificity in the affix will have a significant performance, can be used to do the characteristics of emotional classification. This paper proposes to use the prefix segmentation way, studied the affix to SVM-KNN classifier performance.

Key words sentiment classification; affix; SVM-KNN; machine learning

1 引言

1.1 文本情感分類研究的現狀

文本情感分類,也稱為意見挖掘,主要實現的是對帶有強烈情感傾向的文本進行分類。在研究對象容量大小差別,出現了基于詞語、句子、篇章等級別的情感分類研究;在研究方法上,出現了基于資源的和基于統計的情感分類研究。近些年來,對文本情感分類領域的研究,主要的研究內容集中在以下幾個方面:文本的情感極性分類、文本的主觀性分析、詞語的語義傾向性識別、觀點提取等。具體的研究工作分布在以下幾個領域:詞的極性分類、主客觀分類、基于機器學習的文本情感分類方法、基于情感詞標注的文本情感分類。

1.2 基于機器學習的文本情感分類方法

下面將近年來國內外這方面的研究做簡要的陳述。Pang等人最早使用基于統計的機器學習方法來研究文本情感分類問題,使用SVM、最大熵、樸素貝葉斯等分類器,同時以不同的特征選擇、特征降維方法對internet上的影評文本進行情感分類研究。Pang等人還實現了另外一項工作,構造了一個基于minimum-cut的分類器,從而把文本的極性分類問題轉化成求取句子連接圖的最小分割問題。Lin等人把分類問題的方法用于觀點識別問題,通過基于統計的機器學習的分類算法解析詞的用法獲取文本的觀點。Bruce、Wiebe等人使用Bayes對句子進行主客觀分類。Whitelaw等人提取文本中帶有形容詞的詞組和詞組的修飾語作為特征,用向量空間文檔表示,然后以SVM分類器進行分類,從而區分文檔的褒貶情感傾向。在句子級別的文本情感分類領域,Yi等人以模式匹配的算法進行了深入的研究。Goldberg和Zhu提出了一種新的基于圖的半監督算法來解決電影評論的等級推定問題,與以前的多分類模型相比,性能大幅提高。Mei等人提出了一個新的Topic-Sentiment Mixture(TSM)概率模型,該模型能同時獲得文本的情感信息和主題信息,在沒有任何先驗領域知識的情況下,也可以發現一個Weblog數據集所蘊含的潛在主題。Ni等人以信息增益(Information Gain)和卡方作為特征選擇的方法,用Na ve Bayes、SVM和Rocchio,s算法對原來的情感文本作為二分類問題研究。

2 基于句子級別的情感分類

句子級別的情感分類,是指鑒別情感句的情感傾向后對其進行歸類,也可以說是一種特殊的情感文本分類。文本情感分類根據其所研究的載體的粒度可分為三類:篇章級情感分類、句子級情感分類和詞/短語級情感分類。

隨著互聯網技術的發展,以及Web2.0的出現,人們從早期被動地接受大型的網站信息平臺的信息,轉變到可以自主參與到信息的發布、產生,并能自主地參與平臺進行信息交流,各信息受眾間也可以互相進行信息交互,網絡上有帶有個人主觀性的信息就越來越多。為了獲得民眾網絡上出現的對諸如人物、事件、產品的評價信息,情感分類就應運而生了。

句子級別的情感分類,屬于特殊的文本情感分類,其所做的研究是以句子為載體。在用戶交互性、參與性很強的Web2.0時代,網上有個人主觀色彩的信息多是以單語句形式出現,如電子商務網站的產品評論、網絡論壇對重大事件的態度以及民眾對重要時事、政策觀點,尤其是微博、微信的出現,這一特點體現的更為充分。對句子級別的情感分類的研究對于商品經濟的發展、政府重大方針政策的制定、輿情監控等都具有重要的意義。

2.1 SVM分類器

其原理為:假設樣本線性可分,訓練出一個二類超平面,超平面滿足二類之間距離最大的,稱之為最優超平面。在SVM中最為核心的內容是:如何把訓練超平面的問題,和統計理論中的二次優化問題結合起來。根據結構風險最小化原則,從而取得最優解。首先給定一個用于訓練的樣本集 = {(,),(,),…,( ,)},其中, = {}, = 1,2,…,。為訓練樣本的總的個數,為模式空間的維數,為區分樣本的類標。支持向量機要解決的是如下的一個最優化問題:

() = + (1)

(· + )≥

≥0, = 1,2,3,4,…,

解決這個問題,通常依據最優化理論,轉為其對偶問題

() = (2)

0≤≤, = 1,2…,, = 0

用下面的判別函數分類

( + ) = (()+ ) (3)

其中 = (),()為處理非線性SVM時,將向量映射到高維空間的核函數。

2.2 KNN簡介

NN分類器的基本原理:輸入一個待標明類別的樣本向量,與測試集中的每一個樣本比較,在樣本中找出K個與之相似的,將這個樣本中出現最多的類別作為標志依據,同時對相似度設定閥值,用于判定的類別。

KNN算法如下:

= () (, , , ) (4)

其中,為待標記類別的樣本向量,為K個最鄰近的樣本向量中的第個文本,表示其所屬的類別;(,){0,1},當的類別屬于類別時取1,反之取0;是類別為確定閥值;(, )為待標記類別的樣本向量與訓練樣本之間的相似度值。

(, ) = =

=

其中,表示特征權重,N為特征向量的維數。

3 SVM-KNN分類器

3.1 對SVM分類機理的分析

SVM和KNN分類器,綜合運用方面,中科院的李蓉等研究員,在原理上給出了嚴密的數學證明和推導,并提出了定理。

在定理 中,SVM分類器相當于一個每類只選擇一個代表點的1-NN分類器。

3.2 SVM-KNN分類器簡介

SVM-KNN原理:首先使用SVM分類器判斷待確定類別樣本點和超平面之間的距離,然后對距離設定閾值,對于超過閾值的樣本點,使用SVM分類。對于在閾值之內的點,使用KNN分類器確定類別。

4 實驗結果及分析

本實驗采用SVM分類器,采用以切詞的前綴為特征,即在前述維吾爾語情感分類流程中,在去停頓詞后,然后以空格為標記,將整篇文本分為一個個單個的詞,在對詞進行切前綴取代詞來做特征,取代傳統的以詞做特征進行分類的方式。

本實驗中多類分類器的構造,是使用“一對一”方法構造()/2個二分類器實現的,依卡方為特征選擇方法。

本實驗中所應用的二分類器所使用的核函數均為多項式核函數,() =[(*) + 1],核函數參數(0.5)。錯誤懲罰參數C的值為(4),分類閥值的值?。?.5)。

本實驗使用的語料為三類情感語料:褒義、貶義、中性。從實驗結果,以前綴作特征的方法比以詞做特征有著更好的性能。首先,能一定程度上提高分類的準確率,尤其對于貶義類的情感句子的分類取得了較大的提高,最高可以提高14個百分點。使用詞綴作特征的另一個優點:能夠大幅度降維,這就一定程度地解決維數災難的問題。在分類中,隨著維數的增加所需要的計算量通常是以指數級別增長的,實驗證明詞綴的方法能夠對降維起到了良好的效果。當取5個后綴字母的詞綴時,特征維數變為5599,較之以詞做特征的15372個特征,下降了近50%之多。分別以詞、5個字母詞前綴、6個字母詞前綴、7個字母詞前綴作實驗對比,總的特征維數分別為:15372,7599,9443,11370。從三類的實驗結果可以看出,一般在特征維數選定在1500-2000時,能獲得最優的效果,準確率達到最大值。

5 總結和展望

本文結合維吾爾語的特征,使用切前綴字母作特征,在SVM-KNN分類器中對非平衡文本數據進行試驗,實驗結果證明,在一定的維數范圍內,能夠提高分類的精度。

參考文獻

[1] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chinese with English abstract).

[2] 肖偉.基于語義的BLOG社區文本傾向性分析[D].2007.12.

[3] Bruce R, Wiebe J.Recognizing subjectivity:a case study in manual tagging.Natural Language Engineering,1999.5(2):1-16.

[4] Wiebe J,Riloff E.Creating subjective and objective sentence classifiers from unannotated texts.In Proc.of the 6th Int.Conf.on Computational Linguistics and Intelligent Text Processing,2005:486-497.

[5] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis.In Proc.of the 14th ACM Int.Conf.on Information and Knowledge Management,2005:625-631.

[6] Yi J,Nasukawa T,Bunescu R,et a1.Sentiment analyzer:extracting sentiments about a given topic using natural language processing techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.

猜你喜歡
詞綴機器學習
Module 1 Basketball
詞尾與詞綴的區別研究
現代維吾爾語的詞綴功能及從中存在的奇異現象的處理探討
隰縣方言詞綴“圪”淺析
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
基于支持向量機的金融數據分析研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合