?

2009—2016年我國高校大數據研究文獻計量分析

2016-11-24 16:17唐燕韓愛慶張寶瑛張未未
電腦知識與技術 2016年26期
關鍵詞:共詞期刊文獻

唐燕++韓愛慶++張寶瑛++張未未

摘要:該文以CNKI為數據源,對2009年-2016年高校大數據相關文獻進行計量分析。通過文獻數量、文獻機構來源、文獻發表期刊、關鍵詞詞頻分析,以及關鍵詞共詞矩陣、知識圖譜的分析,分析出高校大數據相關研究情況和研究熱點,為今后科研人員開展研究提供參考。

關鍵詞:高校;大數據;文獻計量學;知識圖譜

中圖分類號: G250.2 文獻標識碼: A 文章編號:1009-3044(2016)26-0010-04

Bibliometric Analysis of Big Data in Colleges and Universities in China in 2009-2016

TANG Yan, HAN Ai-qing, ZHANG Bao-ying,ZHANG Wei-wei

(Information Center, Beijing University of Chinese Medicine, Beijing 100029,China)

Abstract:This article introduce the bibliometrics analysis of big data related literature in colleges and universities in 2009-2016. Through the bibliometrics analysis of the literature and literature sources, literature journal, CO word matrix of keyword analysis, keyword, knowledge mapping analysis, draw the data related researches and the research hot spot, which can provide the reference for future researchers.

Keyword: University; big data; bibliometrics method; knowledge mapping

1研究背景

隨著云計算、互聯網的發展,人類社會已經進入大數據時代。大數據包括各個系統中數據庫中的結構化數據,也包括由社交媒體、郵件、視頻、音頻、文檔信息和網頁所產生的非結構化數據。

大數據已經成功應用于政治、經濟、文化、社會等各領域,已成為一個事關國家發展的產業。2012 年3 月29 日,美國政府宣布了“大數據研究和發展倡議(Big Data Research and Development Initiative)”,以推進從大量的、復雜的數據集合中獲取知識和洞見的能力,并承諾政府將為此投資超2 億美元,許多重要國家機構都將參與其中。2012 年7 月10 日,聯合國發布大數據政務白皮書《大數據促發展:挑戰與機遇》,指出各國政府應當使用極大豐富的數據資源,更好地響應社會和經濟指標。日本總務省于2012 年7 月新發布“活躍ICT日本”新綜合戰略,提出正針對大數據推廣的現狀、發展動向、面臨問題等進行探討,以期對解決社會公共問題做出貢獻。

同時,大數據正在給零售行業帶來深刻的變革,比如美國的亞馬遜,中國的阿里巴巴、騰訊等企業。電商利用大數據預測人們的購買行為,預知消費趨勢,并對人們未來的選擇做出一些推薦。大數據也影響著每個人的工作、生活和學習。生活中,人們基于大數據的移動應用隨時叫到出租車;甚至有數據分析家分析Facebook上的信息,來判斷戀人們是否會分手。

大數據技術的目標就是從這些數據中挖掘信息、判斷趨勢、提高效益?!按髷祿笔抢^物聯網、云計算之后IT 產業又一次顛覆性的技術變革。如何在教育信息化領域充分理解并迎接大數據技術帶來的機遇和挑戰,利用海量數據來挖掘信息、判斷趨勢、提高效率?這是高校信息化部門未來建設數字化校園過程中的必由之路。

高校信息系統也是數據生產大戶。麥肯錫全球研究中心的最新數據顯示,僅2009 年,美國國家教育部的某信息系統的數據庫就膨脹至269 P 字節(1 個P 字節等于10 億個M 字節)。在中國的高校里,學生的學籍、選課、成績、借書、BB平臺、科研系統、實習情況、就業情況、上網、論壇、微博、一卡通、門禁等都會產生大量數據;教師的OA系統、基本信息、科研情況、講座、上課課件、視頻、遠程教育課程等也會產生大量數據;實驗設備、機房、實驗室、圖書等信息,也會產生大量數據。所以高校信息系統通常龐大、復雜,經過多年運營,已經積累了很多數據,這就是高校信息系統中的大數據。

高校中的大數據有很高的教學與科研價值,通過大數據分析,為學校管理部門提供科學的決策支持,幫助教學管理部門優化教學資源配置,優化招生、就業指導等工作。在這個信息非常寶貴的時代,高校的師生們都將從大數據技術中受益。本文采用文獻計量學方法,對我國2009年至2016年大數據在高校的相關文獻進行統計分析,旨在了解該領域的研究現狀、研究熱點和發展趨勢,為科研人員和技術人員提供參考。

2 數據來源與處理方法

2.1數據來源

本文選擇CNKI中國知網數據庫作為檢索數據來源,檢索策略為:(主題=大數據 或big data) 并且 (摘要=高校 或 大學)。檢索時間范圍為:2009年至2016年的數據,共檢索出1340條記錄,檢索時間截止2016年3月9日。

本研究分析的文獻均來自于國內學術期刊、會議論文和學位論文,剔除新聞、短訊、消息、會議通知等文獻,并經過人工篩選剔除不屬于大數據和高校主題相關的研究文獻以及資料不全、數據缺失的文獻。經過篩選共有1258篇文獻與本文研究領域相關,作為文獻研究數據。其中,期刊論文1143,學位論文89篇,會議論文26篇。

2.2分析方法

本文應用計量分析法分析文獻發表年度分布、文獻發表地區分布、文獻機構來源分布、文獻發表期刊等情況;并進一步研究文獻的高頻關鍵詞,分析關鍵詞共詞矩陣,繪制高頻關鍵詞知識圖譜,探討高校大數據的研究熱點和研究前沿。

在研究過程中利用Excel、Access軟件對檢索到的文獻數據進行數據分析前期的數據清洗、數據管理;使用SATI3.2軟件進行信息的抽取,使用Ucinet軟件生成數據文件,并通過NetDraw進行知識圖譜的可視化展示。

3 文獻計量分析

3.1文獻年度發表數量分布

對研究文獻按年度統計文獻數量,結果顯示:2009年文獻5篇,2010年4篇,2011年7篇,2012年9篇,2013年86篇,2014年336篇,2015年739篇,2016年截至3月9日發表文章58篇,另有15篇年代不詳。統計結果如表1所示。通過文獻數量可以看出,2012年以前,國內大數據技術在高校中的應用比較少,尚處于萌芽狀態;2013年開始增長,2014之后迅猛發展,2015年文章數占2009-2016.3月文獻總數的一半多。

表1 2009-2015年高校大數據相關文獻數量

3.2 文獻來源機構分布

分析文獻的來源機構,可以為該領域各科研機構的科研成果、學術水平提供科學依據。本文提取文獻中作者的所在機構,并將同一學校不同部門、更名機構合并為同一機構,分析機構來源情況。分析得出,文獻來源于619個科研機構,并按發文量由高到低排列,位于前12位的機構及發文量如表2所示:

表2 高校大數據發文量前12名的機構分布

通過表2可以看出發文量較高的大學主要位于上海、北京、南京、廣州等這些經濟比較發達的地區,大部分是重點大學,這些高校在大數據方面的研究開展較早,投入較多,研究基礎較好。

使用Access軟件,對不同機構之間的合作發文情況進行統計,機構間合作發文95篇,占總文獻數的7.1%。單個機構發文數量遠遠高于合作發文,目前不同機構在高校大數據方面的合作還比較少。

3.3文獻發表期刊分析

選擇1143篇期刊文獻,經過統計,共發表在518種不同的期刊上,發文量排名靠前的期刊分別為《中國教育網絡》26篇,《農業讀書情報學刊》22篇,《中國教育信息化》17篇,《蘭臺世界》17篇。統計發表文獻數量排在前十的期刊,如表3所示,這些期刊占518種期刊的1.93%,但是發文量共162篇,占全部期刊文獻的14.11%。說明這些期刊中發表高校大數據方面的文章較多,是高校大數據研究的重要陣地。

表3 國內高校大數據相關文獻排名前10的期刊分布

3.4 文獻關鍵詞分析

文獻的關鍵詞一般有3-5個詞或詞組組成,能體現出文章的核心思想。對關鍵詞進行分析,找出高頻關鍵詞,發現研究領域的熱點問題。本文共提取1258篇論文中的關鍵詞4853個,整理、合并部分意思相同的關鍵詞,頻率最高的29個關鍵詞如表4所示:

表4 高校大數據相關高頻關鍵詞

從表4中可以看出,“大數據”詞頻最高, “高校圖書館”、“高?!?、“思想政治教育”、“MOOC”、“數據挖掘”“互聯網、互聯網+”等關鍵詞出現的頻率也較高,可以看出這些都是大數據在高校的研究熱點。

但是,單個關鍵詞的詞頻不能夠說明關鍵詞之間的關系,還需要進一步進行關鍵詞共詞分析的研究。

3.5 關鍵詞共詞分析

關鍵詞共詞分析是對關鍵詞兩兩統計其在同一片篇文獻中出現的次數,構建共詞矩陣,進行聚類分析,從而找出關鍵詞之間的聯系,進一步解釋該領域研究熱點之間的聯系和結構關系[4]。

本文使用Excel中的“數據透視表”功能,創建所有關鍵詞共詞矩陣,選擇矩陣中關鍵詞詞頻較高的部分數據,顯示在表5中。

上面的共詞矩陣中,對角線顯示單個關鍵詞在文獻中出現的次數(注:此處關鍵詞沒有進行人工整理、合并),其他單元格顯示行和列對應的兩個關鍵詞同時出現在文獻中的次數。該矩陣以對角線為對稱軸對稱,沿對角線方向,矩陣上下部分數據完全一致。

為了研究高頻關鍵詞之間的關系,將表5所示的共詞矩陣導入到Ucinet軟件中,生成*.h的數據文件,并通過NetDraw可視化軟件繪制關鍵詞之間的知識圖譜,生成如圖1所示的高校大數據關鍵詞知識圖譜。

在圖1中,不同的節點代表不同的關鍵詞,節點的大小說明了關鍵詞的中介中間性。處于整個圖中心位置的“大數據”關鍵詞,節點最大,說明位置最為重要。節點之間線條的粗細程度代表了節點表示的關鍵詞共現的次數的多少。線條越粗,說明兩個關鍵詞共現的次數較多,關系較為密切。

圖1中,關鍵詞“大數據”位于核心位置,是這兩年研究的重點?!案咝D書館”、“高?!?、“思想政治教育”、“MOOC”、“數據挖掘”“互聯網、互聯網+”等關鍵詞,也是大數據在高校領域的研究熱點。

4 結論

綜上所述,通過對2009年-2016年CNKI上高校大數據相關文獻進行計量分析法、內容分析法和可視化分析法,得出以下結論:

文獻數量上,2012年以前,研究較少,處于萌芽狀態;2013年開始增長,2014之后迅猛發展。文獻的數量與大數據在我國的發展相吻合。媒體將2013年稱為中國的“大數據元年”。這一年,大數據開始走向各行各業,阿里、百度等企業與政府簽署了戰略合作框架協議,推動大數據在政府統計中的應用。教育、醫療等行業也認識到大數據對于解決面臨的種種問題具有重要戰略價值,大數據技術在各行業的研究應用逐步增多。從數據可以看出,從2013年開始,大數據技術與高校相關的文獻迅速增多,大數據在高校的研究與應用越來越多。

從文獻發表期刊可以看出,近年來雖然文獻數量快速增長,但是,發文期刊主要集中在教育信息化、教育教學、圖書情報方面。高校大數據研究集中在教育、情報圖書館、計算機科學領域,具有學科交叉性,但是目前對大數據的研究還處在初期的理論、概念、設計方面的研究,大數據技術的深入研究、行業的實際應用方面還比較薄弱。

通過關鍵詞詞頻分析、共詞矩陣、知識圖譜的分析,可以看出在高校圍繞大數據開展的熱點研究主要集中在三個方面:

1) 大數據在高校圖書館、信息服務、知識服務、數據分析、數據挖掘方面的研究;

2) 大數據在人才培養、高等教育方面引起的變革,以及MOOC教學模式的引入也是研究的熱點內容;

3) 大數據、云計算、物聯網技術在高校管理的信息化、數字化,以及建設數據中心,建設智慧校園中必不可少的。也是高校大數據的研究熱點。

總之,高校大數據的相關研究已經取得了一些成果,今后科研人員還需要注重研究的深度,注重大數據關鍵技術在高校中的應用的研究,將理論成果向實踐應用轉化,為高校、乃至整個教育行業帶來深遠的影響。

參考文獻:

[1] Spiroski,Mirko.Relative Citation Ratio of Top Twenty Macedonian Biomedical Scientists in PubMed:A New Metric that Uses Citation Rates to Measure Influence at the Article Level[J].Open access Macedonian journal of medical sciences,2016,4(2):187-93.

[2] Huang,Ying,Schuehle,Jannik,Porter,Alan L.A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data[J].SCIENTOMETRICS,2015,105(3).

[3] Bragge,Johanna,Korhonen,Pekka,Wallenius,Hannele.Scholarly communities of research in multiple criteria decision making:a bibliometric research profiling study[J].international journal of information technology & decision making,2012,11(2):401-426.

[4] 楊瑞仙.大數據研究的文獻計量分析[J].情報科學,2015,33(8):152-156.

[5] 桑慶兵.大數據在高校的應用與思考[J].南通紡織職業技術學院學報(綜合版),2013,13(2):84-87. (下轉第16頁)

(上接第13頁)

[6] 姜開達,章思宇,孫強.基于Hadoop 的校園網站日志系統設計與實現[C].中國高等教育學會教育信息化分會第十二次學術年會論文集,2014(11).

[7] 崔雷,鄭華川.關于從MEDLINE數據庫中進行知識抽取和挖掘的研究進展[J].情報學報,2003(4):425-433.

[8] 楊繹.基于文獻計量的“大數據”研究[J].圖書館雜志,2012,33(9):29-32.

[9]李賀,袁翠敏,李亞峰.基于文獻計量的大數據研究綜述[J].情報科學,2014,32(6):148-155.

[10] 侯元元,黃裕榮,張紅,等.基于文獻計量的我國大數據研究進展分析[J].圖書情報工作,2014,58(12):204-208.

猜你喜歡
共詞期刊文獻
期刊更名啟事
期刊簡介
期刊問答
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
基于突變檢測與共詞分析的深閱讀新興趨勢分析
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
基于共詞知識圖譜技術的國內VLC可視化研究
基于關鍵詞共詞分析的我國親子關系熱點研究
基于共詞分析的近十年國內網絡團購研究熱點分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合