?

語義核SVM結合改進EMD跨越語義鴻溝

2019-08-27 04:23徐炎曹春萍
關鍵詞:鴻溝準確率矩陣

徐炎 曹春萍

關鍵詞:

語義鴻溝;語義核;

支持向量機;改進EMD

摘要:針對跨越語義鴻溝方法中未考慮文本間語義相關性和樣本數量增加時計算量過大的問題,提出了一種語義核SVM結合改進EMD跨越語義鴻溝方法.該方法首先考慮到文本特征間的語義關系,提取與圖像共生的文本關鍵詞,結合HowNet通用本體庫和內部統計特征構造語義核函數,然后將語義核函數嵌入SVM進行關鍵詞分類,得到最佳候選關鍵詞,從而解決文本間語義相關性問題;再通過最佳減小矩陣對EMD算法進行改進,從而減小計算量.對比實驗結果表明,該方法充分利用了與圖像共生的文本特征間的語義關系,標注準確率明顯高于其他3種方法,且標注時間縮短為其他方法的1/5左右.

Abstract:Aiming at the problem that the semantics relation among texts is not considered and the amount of computation is too large while samples increases in crossing semantic gap methods,a method of crossing semantic gap was proposed based on semantic kernel SVM combined with improved EMD. Firstly, to solve the semantic relation problem among texts, the method constructed the semantic kernel function based on taking semantic relations of text features into consideration, extracting text features coexisting with images and combining HowNet common ontology repository.Then the semantic kernel function was embedded into the SVM to classify keywords for obtaining best candidate words. Secondly, the algorithm improved EMD with best decreasing matrix to cut down the amount of computation. The experiment result showed that the method proposed takes full consideration of semantic relation in the texts related,the annotation accuracy rate was obviously higher than the other 3 methods and the annotation time was cut down to 1/5 of before.

0 引言

跨媒體語義研究針對的是混合在一起的語義內容相同但模態不同的信息對象[1].共生的文本和圖像作為常見的跨媒體語義研究對象一直是業界研究的熱點,相關研究主要集中在圖像語義標注、語義圖像檢索SIR(semantic image retrieval)等方面[2-4].無論是圖像語義標注還是圖像檢索,其關鍵步驟都是描述圖像內容及其語義,其中語義鴻溝作為主要的難點一直制約著標注和檢索的準確率.A.W.M.Smeulders等[5]將語義鴻溝定義為:在給定的情形下,用戶從視覺數據中獲取的信息與其對視覺數據的理解間存在的不一致.為了消除視覺數據的多義性,以便獲得準確的語義表達,研究人員利用跨媒體特征,從不同模態的數據中尋找語義相關信息,從而對視覺特征的語義進行限定.Y.Cao等[6]提出,深度視覺語義哈希模型(DVSH)通過端到端的深度學習架構生成圖像和語句的哈希碼可用以跨越語義鴻溝.該方法雖然考慮到圖像與文本間的語義特征,但忽略了文本內在的語義關聯,且深度學習架構對計算力要求較高.B.Wang等[7]提出的對抗跨模檢索方法 ACMR,采用基于對抗性學習的方法獲得可以將圖像與文本直接進行比較的共享子空間,用以跨越語義鴻溝.該方法的缺點在于:采用三重限制獲取共享子空間中的統一表征,而當樣本數據量增大時計算量增長過快.V.S.Tseng等[8]提出的FMD模型,通過結合Web頁面中與帶標注信息的圖像內容相關的文字描述部分,實現用戶特定需求的語義理解.FMD模型分為三步:首先構建基于圖像分割的視覺特征模型,識別圖像中的對象并進行特征提取,通過比較不同圖像間對象的相似度,得到已標注的詞與對象的關系;然后構建基于決策樹的文字模型,利用C4.5算法對由相關文本中提取的關鍵詞進行分類,得到最合適的候選詞;最后融合兩種模型,根據最短視覺距離將最合適的候選詞標注圖像,從而跨越語義鴻溝.在提取關鍵字并利用決策樹分類的過程中,FMD模型僅采用去停用詞和詞干化處理相關文本得到待分類關鍵詞,忽略了文本特征間的語義關系.此外,由于 C4.5 決策樹算法存在因訓練集規模小而結果不可靠的缺點,導致最終候選詞不可靠[9].同時,通過計算不同圖像中對象的相似度得到最短視覺距離的方法會因訓練樣本數量不足而導致準確率不高.

支持向量機SVM(support vector machine)在解決小樣本、非線性和高維度模式識別問題方面具有良好的性能,基于語義核函數的SVM可以結合文本特征間的語義關系對文本進行分類[10].EMD(earth movers distance)算法是計算跨模態數據相似度的常用方法之一,其定義為:將一個分布變換為另一個分布所需的最小工作量,作為距離函數有一個非常好的特點是存在下界.基于此,本文擬對EMD進行改進以減小計算量,并將語義核SVM結合改進EMD,以解決未考慮文本特征間語義關系的問題,進而提高標注的準確率,在樣本數據量增大時減小所需計算量.

1 EMD算法及其改進

1.1 EMD基本原理

EMD是使用最廣泛的衡量兩種模態對象相似度的方法之一,當樣本量較小時,其計算次數少的優勢尤為明顯.設P={p1,p2,…,pn}和Q={q1,q2,…,qn}為n維直方圖,其中pi和qi是直方柱(也稱權重或概率).矩陣D=[d]稱為地面距離矩陣,其中dij是pi與qi之間的地面距離.地面距離可以由任意度量距離定義,例如歐氏距離和曼哈頓距離.當直方柱由pij轉換為qij時,直方柱中發生變化的部分為fij,矩陣F=[fij]稱為流矩陣.這一轉換過程定義為fij與dij的乘積.P和Q之間的EMD定義為分布P轉換為分布Q所需的最小工作量,即P和Q之間的EMD投影下界為一組正交向量的EMD之和除以向量數的平方根,單一投影的計算時間復雜度為O(n).當所需計算對象數量增加時,EMD算法計算更耗時[13].為了解決這一問題,結合EMD算法計算低維直方圖比高維直方圖快速這一特點,利用n×n′(n′? ? ?改進的EMD算法的計算方法為:投射矩陣G(0)的初始值為隨機生成的正交矩陣,在第k次迭代訓練中,先通過固定矩陣G得到變換矩陣E。

然后,給定變換矩陣E再計算得到投射矩陣G.VS為變換前向量空間,VT為變換后的向量空間,ws和wt分別為變換前后的特征向量.由于正交的限制,計算有一定難度.但是如果選擇平方歐幾里得距離作為地面距離函數d,則目標問題轉化為奇異值分解問題:

2 基于語義核函數的SVM

語義核函數可通過將線性不可分問題中的數據點映射到高維空間,把問題轉化為線性可分問題,然后通過計算高維空間中數據點間的距離來實現分類.此方法的優勢在于通過在原始空間中的計算即可得到高維空間中數據點間距離,且文本數據的稀疏性使得計算距離非常有效.語義核函數的概念由G.Siolas[11]首次提出,實際上是利用文檔維度正交地調整原始空間中的數據向量.對于任意向量x,z∈X,當核函數K(x,z)=Φ(x)·Φ(z)時K有效,其中X是輸入向量空間,Φ是向量空間X到特征空間F的映射.對于任意文檔向量x,z∈X,語義核函數K(x,z)=xTMz,其中M為對稱矩陣,稱為度量矩陣,每個矩陣代表輸入空間的X維之間的語義相似度[12].語義核函數依賴于度量矩陣M的構造.按知識來源,語義核函數可分為基于外部知識源和內部統計特征的語義核函數兩部分.此處的外部知識源為本體,內部統計特征為語義相似度.因此,

其中,φti,tj對應特征矩陣中的元素; k用來控制與ti相關聯的詞數;RelHowNet為ti和tj在本體庫HowNet中的語義相似度;Simsyn為ti與tj的同義詞間的相似度;k1,k2為平滑系數,且 k1+k2=1.當訓練文本充足時,基于統計特征的語義核函數性會更好.反之,當訓練文本數量不足或者無法依據統計特征得到語義關系時,基于本體的語義核函數性會更好.因此,結合這一特性可得

3 語義核SVM結合改進的EMD跨越語義鴻溝方法? 為解決最短視覺距離因訓練樣本數量不足而導致準確率不高的問題,采用改進EMD計算關鍵詞和圖像間的距離.為解決待分類關鍵詞忽略文本特征間語義關系,以及C4.5算法因訓練集規模小而導致最終候選詞不可靠的缺點,采用基于語義核函數的SVM對關鍵詞進行分類.

語義核SVM結合改進的EMD跨越語義鴻溝的具體過程如下:模型輸入為共生圖文,首先構建基于圖像分割的視覺特征模型,提取圖像的顏色、紋理和形狀特征,識別圖像中的對象.其次,對相關文本分詞、去停用詞,通過卡方統計選擇語義相似度較高的候選詞,由TF\|IDF計算得到候選詞的權重,構造語義核函數.再次,結合HowNet通用本體庫構建基于語義核函數的SVM對候選詞分類,得到最佳候選詞.最后,由改進EMD計算出最佳候選詞與圖像中對象的距離,選擇距離最短的候選詞描述圖像,從而跨越語義鴻溝.該方法流程如圖2所示.

4 圖像標注實驗結果與分析

為了測試本文方法的圖像描述準確率,進行圖像標注實驗.實驗數據來源于百度搜索得到的15 000個網頁中的圖文共生數據,網頁中的圖片均帶有一個或多個標簽,共10個類別的主題,分別為熊貓、狗、貓、汽車、輪船、飛機、冰激凌、面條、電話和杯子.在15 000張圖片中取10 000張作為訓練數據,其余5000張作為測試數據.實驗環境為64位Windows10操作系統,

測試樣本數量為500~5000張圖片時,4種方法的F值對比結果見圖4.由圖4可以看出,當訓練數目一定、測試數目增加時,準確率均呈一定下降的趨勢;本文方法相比較基于傳統SVM的標注方法,F值提升18.7%,比FMD模型提高了8.1%.

選擇實際標簽數量為1~6個的圖片為測

試數據,每種標簽數量的圖片均為200張時,4種方法的F值對比結果見圖5.由圖5可以看出,當實際標簽數量增加,即圖像內容更復雜時,SVMt,SVMv和FMD的F值迅速下降,由本文方法產生的F值雖然也呈下降趨勢,但仍保持較高位,標注準確率明顯高于其他3種方法.

對10—100張圖片進行標注,4種方法所花費的時間結果見圖6.由圖6可見,本文提出的方法有效減小了計算量,縮短了標注時間,標注時間縮短為其他標注方法的1/5左右.

5 結語

本文采用基于語義核的SVM結合改進EMD的跨越語義鴻溝方法對圖像進行標注.該方法考慮與圖像共生文本間的語義特征,通過基于外部知識源和內部統計特征的語義核函數得到文本特征間的語義關系,采用基于語義核的SVM對相關文本的文本特征分類,得到最佳候選關鍵詞,同時為了減少計算時間,提出減小變換矩陣改進EMD算法衡量文本特征與圖像對象的距離,選取與圖象距離最小的關鍵詞作為標注詞.實驗結果表明,本文方法有效提高了標注準確率,減小了計算量.然而當圖像內容變得復雜時,本文方法由于對象識別準確率下降,可能導致標注準確率下降,因此今后的研究方向將集中在提高圖像內容識別的準確率上.

參考文獻:

[1] WEI S,WEI Y,ZHANG L,et al. Heterogeneous data alignment for cross\|media computing[C]∥International Conference on Internet Multimedia Computing and Service.New York:ACM,2015:84.

[2] LU Z,PENG Y. Image annotation by semantic sparse recoding of visual content[C]∥ACM International Conference on Multimedia. New York:ACM,2012:499.

[3] 許紅濤,周向東,向宇,等.一種自適應的Web圖像語義自動標注方法[J].軟件學報,2010,21(9):2183.

[4] VIKHAR P A,SHINKAR D V,MISHRA N. Improving the performance of CBIR system using relevance feedback[C]∥International Conference and Workshop on Emerging Trends in Technology.New York:ACM,2010:554.

[5] SMEULDERS A W M,WORRING M,SANTINI S,et al.Content\|based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2000,22(12):1349.

[6] CAO Y,LONG M,WANG J,et al. Deep visual\|semantic hashing for cross\|modal retrieval[C]∥Proceedings of the 22nd ACM SIGKDD International Comference.New York:ACM,2016:1445.

[7] WANG B,YANG Y,XU X,et al.Adversarial cross\|modal retrieval[C]∥ACM on Multimedia Conference.New York:ACM,2017:154.

[8] TSENG V S,SU J H,WANG B W,et al.Web image annotation by fusing visual features and textual information[C]∥ACM Symposium on Applied Computing.New York:ACM,2007:1056.

[9] ELAIDI H,BENABBOU Z,ABBAR H. A comparative study of algorithms constructing decision trees:ID3 and C4.5[C]∥LOPAL 18 Proceedings of the International Conference on Learning and Optimization Algorithms:Theory and Applications. New York:ACM,2018:26.

[10] MAI F,HUANG L,TAN J,et al.The research of semantic kernel in SVM for chinese text Classification[C]∥2017 International Conference on inteligent Information Processing.New York:ACM,2017:1.

[11] SIOLAS G. Support vector machines based on a semantic kernel for text categorization[C]∥Proceedings of the IEEE\|INNS\|ENNS International Joint Conference on Neural Networks. IEEE Computer Society.Piscataway:IEEE,2000:5205.

[12] 張玉峰,王志芳.文本分類中的語義核函數研究[J]. 情報科學,2010(7):970.

[13] WAN X J,PENG Y X.The earth movers distance as a semantic measure for document similarity[C]∥Proceedings of the 14th ACM International Conference on Information and Knowledge Management.New York:ACM,2005:301.

[14] SHI J,MALIK J.Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Maching Intelligence,2000,22(8):888.

猜你喜歡
鴻溝準確率矩陣
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
淺析“老年數字鴻溝”的彌合路徑
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
鴻溝為何不可逾越
鴻溝為界
多項式理論在矩陣求逆中的應用
矩陣
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合