?

互聯網隱式文本特征的提取

2018-01-17 09:26陳君
電子技術與軟件工程 2017年23期
關鍵詞:聚類算法

摘 要 隨著互聯網環境下大數據的極速膨脹,其文本信息也變得越發復雜,同時存在大量的隱式文本,針對隱式文本信息,當前缺乏有效的特征數據提取方法,為了解決該問題,提出了擴充CRFs模型的聚類提取方法。首先采用CRFs模型對候選文本對象進行建模,根據知識庫擴充候選文本的特征詞集合;然后利用聚類算法提取隱式文本對象集,經過迭代計算,得到特征詞的匹配程度,并據此進行文本對象的分類;提出改進的特征去噪方法,結合權重計算提取得到目標文本對象。通過實驗數據的分析,驗證了本文提出的方法可以有效應用于隱式文本對象的特征數據提取上,提高了隱式文本特征提取的查全率和準確率。

【關鍵詞】隱式文本 特征數據 CRFs模型 聚類算法

1 引言

當下人們大部分的信息數據都是來自互聯網,個人用戶可以通過評價對比某商品是否值得購買,企業可以通過搜集個人用戶的評價和訪問等行為指導企業發展方向。但是隨著大數據的急速膨脹,如何從中提取出目標數據,成為了行業內亟待解決的難題。目前針對顯式特征數據提取的研究比較眾多,且較為完善,而對于隱式特征數據提取的研究,則寥寥無幾。

為了更好地實現隱式特征數據的提取,本文提出了擴充CRFs模型的聚類提取方法。該方法適用于互聯網環境下,中文隱式文本特征的提取,下面將對方法進行具體說明。

2 互聯網隱式文本提取

2.1 候選對象CRFs模型

隱式文本對象的特征集具有不確定性,考慮到實際情況的復雜程度,結合CRFs模型進行互聯網環境下的隱式文本的分析,其公式表示如下:

結合該模型分析隱式文本對象的優點是無需知道特征集的相互關系,并且可以在不改變模型本身的情況下,向模型中添加其它的新特征。在對隱式文本對象識別時,根據文本語句的語義和句式,將包含的名詞、動詞與形容詞分別用np,vp,ap進行表示,于是,vp和ap可以用來表示候選隱式文本對象的特征詞,而np則代表了文本語句包含的候選文本對象。根據np與vp,np與ap關系又可以構造得到二元組C(np,vp)與C(np,ap),通過得到的二元組信息便可以很好的反映出文本語句的主干。

2.2 特征詞擴充

利用相似詞匯以及相似短語對C(np,vp)與C(np,ap)構成的候選文本對象模型進行相應的合理擴充。擴充的方法采用HowNet知識庫,該知識庫不僅支持英語,對中文漢語也有很好的支持,采用將漢語文本詞匯分割成最小語義的方法,實現對漢語文本詞匯的識別?;趎p,vp,ap屬性文本詞匯,利用HowNet知識庫分割出最小語義npi,npj,vpk,并將它們放入特征詞集合T,實現擴充,擴充后集合表示為T=(ap,N,A)或者T=(vp,N,V),N表示np的集合,A表示ap的集合,V表示vp的集合。至此,候選文本對象的模型可以表示為:C(np,T)。

2.3 候選文本對象的聚類

為了可以清晰引導文本語義,使用Kmeans對模型C(np,T)進行聚類計算。設定Kmeans算法的輸入參數分別為聚類數與候選文本對象集,并依次表示為k、D,算法輸出為聚類的結果。聚類處理的過程中,首先選定原始聚類中心Ki,選定的方法是在候選文本對象集中,任意抽取k數量的對象;然后通過迭代計算得到候選對象Cj和其它任何一個候選對象的匹配程度,并根據匹配程度把Cj放入匹配度最高的聚類里;再次計算得到新的Ki;最后判斷算法是否達到成熟,如果沒有成熟,重新返回迭代循環,相反則計算結束,結束的判斷依據是:不再有新的Ki產生;Cj的聚類趨于穩定,不再發生變化。

在計算C(np,T)匹配程度的過程中,是通過集合T內部各元素間匹配程度的平均值計算而來,對于候選文本對象集中的任意兩個元素Ci和Cj,它們的匹配程度計算如下:

2.4 隱式文本特征數據的識別

根據IG算法,對于某個特征項t,它對應C的增益計算公式為:

其中Ci是候選特征數據的類別集,p表示概率。利用IG可以對特征存在與否進行分析,特征不存在的分析對于隱式文本對象提取是很重要的,可是這種分析在文本的分類同時也增加了噪聲的干擾,為了避免該問題的出現,采用改進IG算法,公式如下:

對于低頻特征詞或者稀疏特征詞,該方法能夠避免其權重的失效,因此結合權重計算有助于提高特征數據提取的準確度。

3 實驗數據與結果分析

利用租房平臺網頁上下載的房源評論作為實驗數據,來分析驗證本文所提方法的性能。

3.1 擴展CRFs模型聚類結果

首先對基于擴展CRFs模型聚類的結果與常規聚類結果進行實驗對比。由于租房人的需求不同,他們所關注房源的特征也有所差別,大部分租戶關注的評價對象主要包括:租金、交通、地段、戶型、面積、樓層、朝向、裝修、租住方式、房屋配套設施、小區配套設施、周邊配套設施。因此,根據列出的12項主要評價對象,實驗中采用的聚類數取值為[5,12],并計算得到每種數量聚類的平均純度,以此作為評價標準,實驗結果如表1所示。

表1所示為擴展CRFs模型聚類的結果與常規聚類結果的數據對比,從表中數據分析能夠看出,擴展CRFs模型聚類后的平均純度更高,表明其聚類中,任意聚類只對應單個類別的成分更大。

3.2 隱式特征提取結果

實驗中,是對隱式文本特征進行提取,因此,采用召回率和準確率來評價隱式特征提取的性能。針對不同聚類數,依次進行特征提取,同時,為了驗證本文方法中改進IG去噪的性能,首先在不加入IG去噪時進行一次特征提取實驗,實驗結果如表2所示,然后加入IG去噪,使用本文提出的完整方法重新進行實驗,實驗結果如表3所示。

通過表2和表3的結果對比,清晰看出加入改進IG去噪方法后,準確率得到提高,說明該方法有效克服了特征數據的不均衡,濾除了模型建立過程中產生的噪聲。

根據表3數據顯示,本文提出的方法在聚類增加的時候,其召回率呈上升趨勢,準確率也得到提高,當聚類達到一定程度的時候,準確率就會趨于穩定,通過實驗結果,證明了所提方法在隱式特征數據提取中的有效性,并且具有良好的提取性能。

4 結束語

目前針對互聯網環境下隱式特征數據提取問題的研究還有待于深入,尤其對中文文本的特征提取,缺乏有效方法,為此,本文提出一種隱式中文文本特征的提取方法。該方法首先通過CRFs模型獲得特征詞集,擴展后利用聚類算法得到隱式文本對象分類,再通過去噪處理,結合權重計算提取出隱式特征。通過實驗對提出的方法進行驗證,分別驗證了擴展CRFs模型聚類的有效性,以及改進IG去噪的有效性,證明了所提方法提高了隱式文本特征提取的準確性和完整性。

參考文獻

[1]胡海斌.引入特征傾向性的高仿網絡文本數據挖掘[J].計算機仿真,2015,32(05):436-440.

[2]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學報,2014,28(06):150-155.

[3]甘麗新,萬常選,劉德喜等.基于句法語義特征的中文實體關系抽取[J].計算機研究與發展,2016,53(02):284-302.

[4]李國,張春杰,張志遠.一種基于加權LDA模型的文本聚類方法[J].中國民航大學學報,2016,34(02):46-51.

[5]ZHAO J,LIU K,WANG G.Adding redundant features for CRFs-based sentence sentiment classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.

作者簡介

陳君(1977-),女,湖北省漢川縣人。碩士研究生。講師。主要研究方向為計算機軟件。

作者單位

湖北大學知行學院 湖北省武漢市 430011endprint

猜你喜歡
聚類算法
一種基于詞嵌入與密度峰值策略的大數據文本聚類算法
基于K?均值與AGNES聚類算法的校園網行為分析系統研究
基于彈性分布數據集的海量空間數據密度聚類
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合