李可彤
(廣西城市職業大學,廣西 崇左 532200)
科學技術在不停地發展,各個行業的數據信息量隨著互聯網信息技術的不斷普及和發展而急劇膨脹。人類社會需要人文社科不斷地推動,也許它顯示出來的作用沒有自然科學的那么明顯,但是卻是更加令人印象深刻、直指內心深處,對人類的教育作用是無可替代的。
數據可視化技術通過將每一種數據映射為不同的圖形、符號和顏色等,同時使用計算機視覺以及界面,通過平面圖形顯示繪制不同的圖像來直觀地把生僻晦澀的大量、繁雜的數據形象生動并且清晰有效地表達出來,讓人們更容易從多維度了解錯綜復雜的數據。ECharts是國內的一款十分優秀的可視化圖表控件,它能給用戶提供一些同時兼具個性化高、交互性高、靈活快速而且直觀生動的優點的數據可視化圖表。
對于人文社科的研究,國內外一直在進行著。2014年,Schich使用可視化技術針對歷史杰出人物的出生地點和逝世地點,關聯了當時的歷史和文化,繪制了歐洲和北美的文化史圖,獲得了文化發展的趨勢[1]。近年來,國內外更是增加了一些關于人文社科的新項目、新平臺,例如國家圖書館的“華夏記憶項目”、上海圖書館的“中文古籍聯合目錄及循證平臺”。由此可見,在社會的不斷進步下,人們已經從單純地追求物質世界逐漸轉變為精神世界,人文社科的地位在不斷上升,研究人文社科的數據勢在必行。
信息可視化其實是對數據庫數據的一種壓縮并進行展示,是對復雜現象的了解、復雜數據的詮釋的重要工具和途徑。它可以通過詳細而深入的理解,簡明而清晰地表示出海量的數據。
本項目圍繞的主題是人文社科中的“海上絲綢之路”“珠江-西江經濟帶”“漓江廉政”“就業信息”,可視化數據的來源,一是從知網上爬取的與人文社科相關的文章名、作者、文章摘要、文章關鍵詞、發表日期;二是智聯招聘網中的招聘信息,包括每條招聘信息的城市、地點、招聘公司名稱、公司性質、招聘職位、學歷要求、薪資以及招聘人數。
數據可視化的實現流程是從數據庫中的原始數據到圖表的生成的一系列過程。從數據庫取數據,到數據預處理、判斷類型,再到Json編碼、前端解碼,最后寫入圖例數據、交互與顯示[2]。
3.3.1 餅圖(Pie Chart)
餅圖大多數應用于統計學里,它的原理是將一個圓形切割成多個扇形,可以用來表示不同類型的數據占數據總量的百分比,同時,通過扇形的面積可以一眼看出它們之間的大小。
本次項目研究的是以人文社科為主題的與海上絲綢之路相關的文獻,本次的餅狀圖展示了關鍵詞在文章中的頻率,以及在餅圖中的百分比,如下圖1所示。點擊右上角的下載圖標可以保存圖。由此可以幫助人們清晰直觀地看出每個關鍵詞的比例。
圖1 餅圖
3.3.2 柱形圖(Bar Chart)
柱形圖別名長圖,它是由多個同一水平線上的長方形柱構成[3],一般使用在數據的比較上。通常使用在坐標系中,并且可以根據實際情景需要,將柱形圖表示在正負不同的坐標系中,表示出不同的數據事件。本次垂直柱形圖數據是基于漓江廉政,展示了關鍵詞較高的詞語,同時展示了較高關鍵詞的總數。每個詞語之間的差距一眼便可以看出,同時當鼠標懸浮在上面時,可以提示出每個詞的詞頻,如圖2所示:點擊右上角可以折線圖、柱形圖切換,同時可以下載該圖。
圖2 垂直柱形圖
將數據庫中的數據輸出到后臺的過程中,首先對得到的數據編碼成K-V類數組,因為在圖例中的數據只存在于X軸或Y軸,Y軸對應于K值,X軸對應于V值,分布對應使用3個數值存儲對應的K、V、K-V值,循環輸出X-Y軸數值,并畫出表圖。然后再對圖例的控制值進行自定義設置,完成后進行展示。
3.3.3 詞云(WordCloud)
詞云是由美國大學的副教授里奇.戈登(Rich Gordon)推出的一種用于展示多種詞語及其所占比重的圖例。對多種詞語使用不同的顏色、位置、大小進行排布,所占比重越大,其顯示在詞云中的大小也就越大。該圖例因其詞匯組成后類似云彩的樣子,又被稱為文字云。利用詞云,我們可以對文章進行文字排布,得到文章的詞云,可以從中提煉出明顯的關鍵詞。
本次項目使用的是基于知網以海上絲綢之路為主題的文獻,詞云展示的是文章當中出現次數較多的詞語,如圖3所示。詞云通過文字的大小展示出數量的大小,讓人們一眼可以看出數量最多的詞語。通過不同的色彩讓詞云圖更加亮眼。
圖3 詞云圖
隨著信息科技的不斷發展,人們對界面的要求越來越高,不再滿足于簡單、單一的數據圖表。因此,數據可視化應運而生。本論文根據人文社科數據的需要,研究Web可視化技術,選擇了Echarts插件作為人文社科數據可視化的主要插件,研究了餅圖、柱形圖、詞云。