?

圖像檢索研究的知識圖譜分析

2016-11-30 05:52夏紅玉李玉海
大學圖書情報學刊 2016年6期
關鍵詞:熱點圖譜檢索

夏紅玉,李玉海

(1.湖北工業大學,武漢 430068;2.華中師范大學信息管理學院, 武漢 430079)

?

圖像檢索研究的知識圖譜分析

夏紅玉1,李玉海2

(1.湖北工業大學,武漢 430068;2.華中師范大學信息管理學院, 武漢 430079)

以Web of ScienceTM 核心合集數據庫收錄的關于圖像檢索領域研究近十年的論著為基礎數據。利用Citespace和Spss軟件,對所采集的數據進行共引分析和聚類分析,繪制出圖像檢索領域的著作機構圖譜、文獻共被引網絡圖譜,展示了該領域的研究力量分布,確定了該領域的代表人物、代表作品;同時利用軟件提供的詞頻探測技術繪制出圖像檢索領域的研究熱點知識圖譜以及研究前沿與發展知識圖譜,揭示了該領域近十年的研究熱點、研究前沿及其發展趨勢。

圖像檢索;研究熱點;研究現狀;可視化;CiteSpace

引言

圖像檢索就是根據對圖像內容的描述,在目標圖像集合中找到具有指定特征或包含指定內容的圖像[1]。早在20世紀70年代,人們就開始研究如何對圖像數據進行有效的管理和檢索。經過幾十年的發展,近十年內圖像檢索的研究出現了哪些研究熱點,涌現出了哪些核心作者群,研究的現狀如何?在此背景下,本文在文獻挖掘和可視化軟件平臺的基礎上,通過對近年來相關文獻的數據分析和重要文獻信息的解讀,對我國近10年圖像檢索領域的研究現狀進行系統梳理。

1 數據來源和研究方法

1.1 數據來源

本研究所采用數據來源于美國科學情報所(Institute for Scientific Information)出版的 Web of Knowledge。在其下的 Web of ScienceTM核心合集數據庫中進行檢索,數據庫包括引文數據庫 SCI-EXPANDED,SSCI,A & HCI,CPCI-S以及CPCI-SSH,數據檢索起止時間段設定為“2005”到“2014”,采集數據的時間為2014年8月28日,檢索時分別以標題=Image retrieval、標題=multimedia retrieval AND image、標題=CBIR檢索式進行檢索,去重后得到1424條題錄數據,然后選擇學科類別為“Computer Science”。本研究以檢索到的1424條題錄數據(包括題目、摘要和被引文獻等)為數據源。每個文獻記錄代表一篇引文(Citingarticle),而在每條記錄中的參考文獻被稱作被引文獻(Cited article)[2]。

1.2 研究方法

科學文獻之間的相互聯系形成了引證與被引證的關系,本文主要對文獻進行共被引分析及聚類分析。共被引文獻是指被同一篇論文同時引用的文獻,具有共被引關系的兩篇論文往往具有類似的研究內容,而共被引的次數可以用來衡量不同文獻研究內容的相似程度[3]。聚類分析是依照“物以類聚”的原理,根據事物本身的特性研究個體的分類[4]。對文獻進行聚類,使同一類內的文章具有類似的研究內容,可以得到學科領域內的研究熱點。通過共引分析結合聚類分析,可以觀察到研究領域隨著時間的發展趨勢,對研究熱點與前沿的跟蹤具有重要意義[5]。

本文采用文獻計量學分析軟件CitespaceII和Spss相結合,分析圖像檢索研究領域的進展和主要研究熱點。在目前常用的文獻信息分析與挖掘軟件中,Citespace 在可視化的算法和展示效果方面具有優勢,而Spss可以彌補Citespace在數據清洗功能方面的不足,便于對文獻主題進行分析。

2 圖像檢索領域的研究力量分布

對開展圖像檢索研究的國家和機構進行可視化分析,可以明確該學科的研究力量分布。在CiteSpace軟件的界面上,導入下載的數據源,時區確定為2005-2014年,設置時間跨度為1,即將2005-2014年分為10個時間段進行處理,網絡節點確定為Country和 Institution,數據抽取對象為top30,閾值選擇為(2,2,20),(4,3,20),(3,3,20),運行CiteSpace,得到數字圖像檢索研究的國家和機構綜合性分析圖譜,其中,大的圓形節點代表國家,處于分支上的小的節點代表機構,共有143個節點,151條連線,如圖1所示。表1中的數據為從Citespace中導出,經過spss軟件進行數據清洗、再聚類的圖像檢索領域研究力量區域分布統計。

圖1 圖像檢索研究的國家機構圖譜

圖1顯示了數字圖像檢索領域的研究力量來自多個國家和機構,中國和美國為該領域論文發表的主要國家,結合表1,從發文頻次、中心性兩個方面對結果進行分析。首先,從發文頻次來看,我國大陸地區的發文量最多,為585篇,位居第二位的是美國,發文364篇,緊隨其后的是我國臺灣地區、韓國、印度、新加坡、法國、日本、德國等。由此可見,中國和美國的文獻貢獻率最大,并且遠高于其它國家。

在Citespace中,中心度指某一節點所在網絡中通過該點的任意最短路徑的條數,是網絡中節點在整體網絡中所起連接作用大小的度量,在相同的分析頻次中,中心性越大,其作用越大。從中心性來看,在整個網絡中,美國的節點中心性最大為0.99,這表明在整個共現網絡中絕大部分國家都直接或間接地與其有合作關系,圖1中絕大多數國家節點與美國節點之間都有連線,這一現象更加證明了這一點,再重新聚類后,合并了許多處于同一地區的研究機構,也就是說,與美國相連的實際節點數大于圖1中所顯示的節點數。緊隨其后的是中國,中心性為0.66。由此可知,雖然我國的發文頻次大約是美國的兩倍,但我國的中心度卻小于美國。說明我國在圖像檢索領域的研究成果雖多,但平均研究水平低于美國。與德國相比而言,雖然其發文頻次只有71,但其中心度卻有0.5,說明在圖像檢索領域,其研究成果雖不多,卻具有很高的影響力。在中心度方面,排在前幾位的國家還有:韓國、瑞士、英國、新加坡、印度??傮w而言,我國及美國在圖像檢索領域中的研究具有重要的作用。

3 圖像檢索領域的文獻共引分析

利用CiteSpace信息可視化軟件對前面確定的1424條文獻數據信息進行可視化分析,將網絡節點選為Cited Reference,數據抽取為top20,其他條件不變,運行得到數字圖像研究的文獻共被引網絡知識圖譜(圖2),其中節點111個,連線244條。

圖2 圖像檢索的文獻共被引網絡圖譜

3.1 數字圖像領域的早期研究者及其代表作品

運用CiteSpace軟件對學科領域的文獻信息可視化,能夠較為直觀地識別學科領域的經典基礎文獻[6]。由圖3可知,圖像檢索最早期的研究可以追溯到1962年,M.K.HU首次提出圖像識別的幾何矩理論,并證明了所提出的7個矩對圖像的平移、旋轉和比例變化均保持了不變[7],為目前圖像檢索領域奠定了研究基礎。1991年SWAIN MJ等人提出了顏色檢索的基本思想和算法,并進一步證明了顏色直方圖的像素數目相同時,直方圖相交的運算結果反映了兩個直方圖的街區距離,進一步說明了算法的含義[8]。這開創了圖像檢索領域研究的新起點——基于內容的圖像檢索。

3.2 數字圖像領域高頻文獻及關鍵節點文獻

在文獻共被引網絡中,不同聚類之間通過關鍵節點相連接。根據陳超美博士的定義,共被引網絡圖譜中的關鍵節點是圖譜中連接兩個以上不同聚類,且相對中心度和被引頻次較高的節點。這些節點可能成為網絡中由一個時間段向另一個時間段過渡的關鍵點[9]?;诖?,結合表2對圖2中的節點文獻進行分析,確定了中心度和被引頻次相對較高的10篇關鍵節點文獻。

從表2可以看出,在中心度和被引次數相對較高的前十篇文獻中,RUIY和MANJUNATH BS兩人都有兩篇文章入選。被引次數最高的三篇分別是SMEULDERS AWM等人的《Content-Based Image Retrieval at the End of the Early Years》,這是一篇綜述性的論文,文章基于200篇參考文獻,討論了基于內容的圖像檢索的工作條件,以及圖像檢索系統的計算步驟[10]。RUI Y等人在《Relevance feedback: a power tool forinteractive content-based image retrieval》一文中,在基于內容的圖像檢索系統的低層特征和高層語義之間的差距,以及人類感知的視覺內容的主體性兩個特點上,提出了一種基于相關反饋的交互式檢索方法。在檢索過程中,用戶高層次的查詢和感知主體動態更新的權重,捕獲基于用戶的反饋。實驗結果表明:該方法大大降低了組成查詢用戶的努力,且更精確地捕獲用戶的信息需求[11]。SWAIN MJ等人的《Color Indexing》在前文中已經分析過了,在此不再贅述。

表2 圖像檢索研究的10篇關鍵節點文獻

中心度居于第一位的是MANJUNATH BS在2001年發表的《Color and texture descriptors》一文。在這篇文章中作者主要介紹了基于顏色和紋理的描述子。標準的顏色描述子包括使用Haar變換編碼的直方圖描述子,一個主色描述子及一個色彩分布描述子;三種紋理描述子包括一個均描述均勻紋理區域的描述子,一個描述局部邊緣分布的描述子以及一個小型的紋理瀏覽描述子[12]。作者在文中從三個方面對描述子的效用進行評價:描述子在相似性檢索、特征提取、存儲和表示復雜性,以實驗結果展示了描述子的效率。

4 圖像檢索領域的研究熱點與現狀可視化分析

4.1 圖像檢索研究熱點知識圖譜

研究熱點是在某段時期內,相互聯系且數量相對較多的一類文獻共同探討的研究問題。從文獻計量學的角度看,在某學科領域內被引頻次最高的研究型文獻通常是該領域研究熱點的集中體現。主題詞是一篇文章的核心和精髓所在,是對文章主題的高度概括和精煉,是規范化的語言。對文章的主題詞進行分析,頻次較高的主題詞在一定程度上可以看作是該領域的研究熱點[13]。在該研究領域中,我們把主題詞作為熱點詞匯來源,借助CiteSpace信息可視化軟件對文獻題錄中的主題詞進行分析,通過顯示高頻主題詞來確定信息服務研究的熱點領域。據此,將前文確定的數據源導入CiteSpace中,網絡節點確定為關鍵詞,選擇適當的閾值,運行CiteSpace軟件,生成的一個基于關鍵詞的知識圖譜,如圖3所示。圖中共有96個節點,229條連線。其中出現頻次較多的關鍵詞在一定程度上代表了該領域的研究熱點[14]。

圖3 圖像檢索研究關鍵詞圖譜

從圖3我們可以清晰地看到圖像研究的重點領域,從CiteSpace導出的熱點詞中選取頻次排名較高的詞,去掉不具有代表意義的高頻詞,如:image retrieval,同時對意思相同的詞進行合并統計,如:content-based image retrieval、content based image retrieval、cbir合并為content-based image retrieval,可以得到信息服務的熱點詞統計表,見表3。

表3 圖像檢索高頻熱點詞列表

從圖3可以看出,image features(圖像特征)的節點最大,這說明2005-2014年間,圖像檢索領域非常注重對圖像特征的研究,以至于產生了大量的相關文獻。緊隨第二的是content-based image retrieval(基于內容的圖像檢索),可見在這十年間,在圖像檢索領域,圖像特征的研究是基于圖像內容的特征,即圖像的顏色、紋理、形狀等。

其他的主題詞,如:relevance feedback(相關反饋)、recognition(圖像識別)、image segmentation(圖像分割)、feature extraction(特征提取)、similarity(相似度等)、descriptors(描述子)和region-based image retrieval(基于區域的圖像檢索)的出現頻次依次遞減。這些熱點關鍵詞僅從字面意思理解就與圖像的內容特征直接相關,即與基于內容的圖像檢索直接相關,是基于內容的圖像檢索研究內容的不同分支。

其余主題詞:classification(分類)、system(系統)、algorithm(算法)、databases(數據庫)、representation(表示)、model(模型)、framework(框架)、image annotation(圖像標注)、semantics(語義)、performance(性能)和support vector machines(支持向量機),僅從字面意思理解,不能判斷它與某個主題是否直接相關,但從圖3可知,它們都與image features、content-based image retrieval、relevance feedback三個主題熱點詞節點有連線,因此可以推斷出這些主題詞語與圖像內容特征的檢索有關聯。

綜上所述,在近十年的時間領域里,基于圖像內容特征的圖像檢索是該研究領域的熱點。

4.2 圖像檢索研究前沿知識圖譜

利用CiteSpace提供的詞頻探測技術,通過考察詞頻的時間分布,將其中頻次變化率高的詞(burstterm)從大量的主題詞中探測出來,依靠詞頻的變動趨勢,而不僅僅是頻次的高低,來確定國際科學技術政策研究的前沿領域和發展趨勢[15]。將之前檢索到的文獻數據導入到CiteSpace中,設置合適的閾值,運行軟件,共探測出25個膨脹詞,得到圖像檢索研究前沿知識圖譜(如圖4所示)。

圖4 圖像檢索研究突現詞圖譜

由圖4以及CiteSpace導出的數據可以看出,主題詞變化率最高的是retrieval system(檢索系統),其突變率達到了25.01,這表明圖像檢索領域中,圖像檢索系統獲得了廣泛關注,是研究熱點與重點。另外,Image content(圖像內容)突變率達到了5.63,與之相關的另外兩個主題詞——image features(圖像特征)、feature vectors(特征向量)突變率分別達到了5.17和4.72,這表明圖像檢索領域對圖片特征內容的研究仍可能是以后研究的熱點。除此之外,retrieval technique(檢索技術)、algorithm(算法)和relevance feedback(相關反饋)、classification(分類)、recognition(識別)等主題詞的突變率也比較突出。由此可以確定圖像特征、圖像檢索算法、相關反饋和圖像識別等領域是近年來圖像檢索領域研究的熱點。

4.3 圖像檢索領域研究發展現狀分析

關鍵詞是一篇文章的核心和精髓所在,對文章的關鍵詞的內容進行分析,頻次較高的關鍵詞在一定程度上可以看作是該領域的研究熱點。通過對不同時區內熱點關鍵詞的數量進行分析,可以得出該領域的發展狀態。下面將通過對關鍵詞的聚類分析,統計近年來被引頻次大于10的關鍵詞,進行時區分析,通過每個時區內顯示高頻關鍵詞的數量和引用情況來分析圖像檢索領域研究的發展現狀,具體見圖5。

圖5 圖像檢索關鍵詞聚類時區視圖

從圖5可以看到,圖像檢索領域每年新增的關鍵詞呈現遞減趨勢。通過計算每個時區排在前20名被引次數最高的關鍵詞的共現頻次得到表4。結合表4與圖5可以得知:近十年內圖像檢索領域的研究內容與研究基礎基本上在2006年以前已經成型,并且近十年內一直沒有太大突破。2009年以后幾乎沒有產生新的研究熱點。由此數據可以推斷,在2005年之前,圖像檢索領域取得了突破性成就,開創了基于內容的圖像檢索研究領域,并且向圖像特征、圖像檢索算法、相關反饋和圖像識別等方向多元化發展。其后的研究并未取得突破性成果,因此可以認為自2006年后,圖像檢索領域一直處于研究的瓶頸期。

表4 圖像檢索熱點關鍵詞時區貢獻力列表

5 結語

本文以圖像檢索為研究對象,以Web of ScienceTM核心合集數據庫收錄的關于圖像檢索研究領域近十年的論著為基礎數據。利用動態網絡分析的信息可視化技術及工具CiteSpace對其進行分析,運用科學計量的方法以知識圖譜的方式展示圖像檢索領域的研究力量分布以及相關的代表人物、代表文獻,分析了信息服務當前的研究熱點和研究的發展趨勢,由此得出以下結論:

(1)圖像檢索力量來自多個國家和機構,這些研究機構主要分布在中國、美國、韓國、德國等國家,并且大多是大學和研究所,它們在圖像檢索領域的研究具有非常重要的作用。(2)從文獻的發表時間來看,圖像檢索領域較早時期的節點文獻是1962年M.K.HU的《Visual pattern recognition by moment invariants》,首次提出圖像識別的幾何矩理論;從文獻的重要性來看,SMEULDERS AWM、SWAIN MJ、RUI Y、MANJUNATH BS、LOWE DG等人是該領域內的重要代表人物,圖像檢索領域的關鍵節點文獻大多由他們撰寫。(3)通過詞頻探測技術,確定圖像檢索領域的研究熱點主題包括圖像檢索系統、圖片特征、圖像檢索算法、相關反饋、圖像識別等領域。(4)通過關鍵詞時區分析得到:近十年內圖像檢索領域的研究內容與研究基礎,在2006年以前已經基本成型,其后研究并未取得突破性成果,因此,自2006年以后,圖像檢索領域一直處于研究的瓶頸期。

[1] 張明霞,徐金東.數字圖像檢索研究進展概述[J].圖書館工作與研究,2011(10):34-37.

[2] 陳超美.CiteSpace II: 科學文獻中新趨勢與新動態的識別與可視化[J].陳悅,侯劍華,梁永霞,譯.情報學報,2009,28(3):407-408.

[3] 譚春輝,麻曉杰.我國圖書館學非正式學術共同體的形成——基于1998-2012年《中國圖書館學報》的計量分析[J]. 情報雜志,2014(3):64-71.

[4] 馬費成,陳瀟俊,劉向.基于科學知識圖譜分析的知識演化研究——以生物醫學為例[J].情報科學,2012(1):1-7.

[5] 魏曉萍,陳恒.本體研究熱點及演進過程的可視化分析[J].圖書館雜志,2013(2):65-72.

[6] 侯劍華,陳躍.戰略管理學前沿演進可視化研究[J].科學學研究,2007,25(S):16-17.

[7] Hu, M.K. Visual pattern recognition by moment invariants[J].Information Theory Ire Transactionson,1962(8):179-187.

[8] Michael J. Swain, Dana H. Ballard. Color Indexing[J]. International Journal of Computer Vision,1991(7):11-32.

[9] Chaomei Chen. The Centrality of Pivotal Points in the Evolution of Scientific Network, Proceedings of the In-ternational Conference on Intelligent User Interfaces(IUI 2005)[C]. San Diego: CA, 2005: 98-105.

[10] Arnold W. M. Smeulders.elt.Content-Based Image Retrieval at the End of the Early Years[J].IEEE Trans. Pattern Anal, Mach. Intell. 2000,22(12):1349-1380.

[11] Rui Y., Huang T.S., Ortega M., and Mehrotra S. Relevance feedback: a power tool for interactive content-based image retrieval[J]. IEEE Trans. Circ. Video Tech,1998, 8(5):644-655.

[12] B. S. Manjunath, J. R. Ohm.elt.Color and texture descriptors Circuits and Systems for Video Technology[J].IEEE Transactions on, 2001,1(6): 703-715.

[13] 趙蓉英,徐燦.信息服務領域研究熱點與前沿的可視化分析[J].情報科學,2013(12):9-14.

[14] 趙蓉英,許麗敏.文獻計量學發展演進與研究前沿的知識圖譜探析[J].中國圖書館學報,2010,36(5):60-68.

[15] 侯海燕,劉澤淵,陳悅,等. 當代國際科學學研究熱點演進趨勢知識圖譜[J].科研管理, 2006,27(3): 90-96.

(責任編輯:朱愛瑜)

Knowledge Map Analysis of Image Retrieval Research

XIA Hong-yu, LI Yu-hai

(1.Hubei University of Technology, Wuhan 430068, China;2.Central China Normal University, Wuhan 430079, China)

Based on papaers on image retrieval research in the core collection database of Web of Science for nearly ten years, by using Citespace and Spss, this paper conducts co-citation analysis and cluster analysis.It makes the country-institution map and the literature co-citation network map in the field of image retrieval field, shows the research distribution and confirms the representative scientists and documents in this field.At the same time, with the frequency detection technology which is provided by CiteSpace, it discloses the esearch hotspots, research fronts and development trends by mapping the knowledge map of them in the image retrieval field.

image retrieval; esearch hotspot; research status; visualization; CiteSpace

G252.8

A

1006-1525(2016)06-0117-09

夏紅玉,女,館員。

2016-05-27

猜你喜歡
熱點圖譜檢索
熱點
繪一張成長圖譜
熱點
結合熱點做演講
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
專利檢索中“語義”的表現
熱點
雜草圖譜
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合