?

基于神經網絡詞嵌入的大數據關注熱點和詞嵌入概貌比較研究

2024-01-27 13:40周愛霞嚴亞蘭查先進
現代情報 2024年1期
關鍵詞:比較研究大數據

周愛霞 嚴亞蘭 查先進

關鍵詞: 大數據; 比較研究; 學術平臺; 社會化問答平臺; Word2vec

DOI:10.3969 / j.issn.1008-0821.2024.01.004

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 01-0037-11

習近平總書記在中共中央政治局就實施國家大數據戰略進行第二次集體學習時指出: “大數據是信息化發展的新階段”[1] 。數據快速成倍增長, 從數據到大數據, 不僅是量的積累, 更是質的飛躍[2] 。大數據是數字化轉型和數字經濟的重要基石[3] 。自大數據(Big Data)作為一個概念被提出以來, 它就受到工業界、學術界、政府等的廣泛關注, 大數據已對社會和經濟發展產生了重大影響, 并將持續產生更大的影響。

我國學者對大數據開展了廣泛的研究并產出了大量的成果。同時, 知乎已成為優秀的社會化問答平臺, 大數據在知乎平臺上通過問題和回答的方式受到了廣泛關注。例如, 在問題“如何準確又通俗易懂地解釋大數據及其應用價值?” 下, 答主們圍繞大數據的定義、應用場景以及價值等方面, 系統而全面地回答了該問題。又如, 在問題“大數據最核心的價值是什么?” 下, 有一條高贊回答認為, 大數據的核心價值是了解和挖掘用戶的行為習慣和愛好。再如, 在問題“普及一下什么是大數據技術?”下, 有一位答主的回答得到了大家的廣泛認同, 該答主認為大數據技術是一套完整的“數據+業務+需求” 的解決方案。

Word2vec 是新興的神經網絡詞嵌入算法, 也是最近幾年人工智能領域自然語言處理技術得以快速發展的根基, 它不僅計算成本低, 而且準確度高,能夠同時在語法和語義層面對詞語的相似度進行有效的測度。結合不同平臺的語料庫訓練Word2vec模型, 可以結合語義相似詞對不同平臺的關注熱點進行比較, 可以利用降維技術和數據可視化方法對詞嵌入概貌進行比較。本研究利用Word2vec 神經網絡詞嵌入算法, 結合我國學術平臺和社會化問答平臺對大數據關注熱點和詞嵌入概貌進行比較分析, 為大數據研究提供新的視角。

1 大數據相關研究和本研究的切入點

大數據一直是學術界的研究熱點。隨著云計算、移動互聯網、物聯網等下一代信息技術的快速融合和發展, 數據呈現指數級增長[4] 。在我國, 大數據研究受到越來越多的關注。黃家良等[5] 探討了如何應用大數據促進虛擬社區的知識共享行為。他們構建了基于大數據的虛擬社區知識共享體系架構, 研究結果表明, 該架構具有較高的可行性和價值意義,可以挖掘虛擬社區的大數據價值從而提高平臺的知識共享水平。甄藝凱[6] 針對互聯網經濟中存在的價格歧視問題, 在轉移成本視角下, 通過構建一個三階段動態博弈, 探究了企業在寡頭競爭市場中的大數據“殺熟” 動機, 研究結果表明, 當轉移成本較大時, 至少存在一家企業有“殺熟” 動機; 相反, “殺熟” 策略并不會出現在子博弈精煉納什均衡路徑上。張彬等[7] 基于大數據環境, 構建了興趣知識圖譜, 探討了用戶興趣之間的關系, 研究結果表明, 該模型有效融合擴展了不同類型的興趣關聯知識, 且與單一來源數據相比, 該模型在用戶興趣的查準率和覆蓋率上都有所提升, 用戶興趣描繪的準確性和全面性也得到了優化。王旸等[8] 從社會化媒體平臺視角出發, 構建了系統化的社會化媒體大數據資源模型, 建立了用戶在線活動的“主體—操作—對象” 過程框架, 探討了社會化媒體平臺建立大數據資源觀的重要性, 研究結果表明, 相較于現有研究, 該研究提出的模型在完整性、準確性、易理解性、可擴展性等方面都得到了提升。任曙明等[9] 通過構建理論模型, 探討了大數據應用如何影響企業的創新資源錯配, 研究結果表明, 大數據應用主要是通過技術壁壘效應以及知識流動效應影響企業創新資源錯配。

可以看出, 我國學者已經針對大數據開展了廣泛的研究。為了推動我國大數據研究取得更多的成果, 推動學術界更多結合我國大數據實踐和社會需求而展開研究, 有必要回答以下問題: 我國學術平臺和社會化問答平臺在大數據關注熱點上存在什么差異? 我國學術平臺和社會化問答平臺在大數據詞嵌入概貌上存在什么差異? 如何有效地展現和比較關注熱點上的差異和詞嵌入概貌上的差異? 這些問題構成了本研究的切入點。從研究范式上看, 本研究屬于數據驅動的研究, 對于數據驅動的研究, 當數據量足夠大時, 數據分析結果不僅僅展現的是現象, 而是具有一定的穩健性和科學價值。本研究遵循數據驅動的研究范式, 通過知乎平臺搜集了大數據主題下主流問題的回答, 回答內容包含92 萬多字; 通過中國知網平臺搜集了12 770篇文獻, 這些文獻代表了北大核心期刊中大數據研究重要文獻的全集; 然后創新地利用Word2vec 神經網絡詞嵌入方法, 結合我國學術平臺和社會化問答平臺對大數據關注熱點和詞嵌入概貌進行了比較分析。

2 研究方法: 神經網絡詞嵌入

在自然語言處理領域, 詞嵌入是一項非常重要的技術。詞嵌入表示中最簡單和最知名的是獨熱編碼(One-hot Encoding)。獨熱編碼的維度由詞庫的大小決定, 獨熱編碼在表示詞語的時候存在明顯的維度災難, 有多少詞語就需要有多少維, 因此對于龐大的語料庫來說, 計算量和存儲量都是很大的問題[10] 。

Word2vec 模型是由Google 團隊于2013 年發明的基于神經網絡的詞嵌入方法, 在訓練向量空間模型的速度上大大優于以往的方法[11] 。Word2vec 有一個很重要的假設: 文本中離得越近的詞語相似度越高?;谶@個假設, Word2vec 用連續詞袋模型(Continuous Bag of Words, CBOW)架構和Skip-gram架構來計算詞向量矩陣。CBOW 是用上下文詞來預測中心詞, 而Skip-gram 是用中心詞來預測上下文, 它們有著準確度高、計算成本低的特點, 能夠在語義層面和語法層面有效測度詞語的相似度[11] 。Python 中的Gensim 庫提供了API 接口, 可以使用Word2vec 的這兩種框架[12] 。

Word2vec 已被廣泛應用于科研和工作中, 可以用來做情感分析[13-14] 、中文分詞[15] 、句法依存分析[16-17] 等。谷瑩等[18] 利用Word2vec 技術構建了產品特征詞集合, 構建了基于在線產品評論的企業競爭情報框架。該研究以汽車行業的評價為數據集進行實驗, 研究結果表明, 該方法能夠有效識別產品的情報信息, 為企業制定競爭策略和優化產品設計提供依據, 為大數據環境下的企業競爭情報挖掘提供方法。Yilmaz S 等[19] 使用Word2vec 方法構建了詞嵌入, 在由用戶問題組成的大型語料庫上構建了具有不同向量大小的CBOW 和Skip-gram 模型,測試了使用不同的Word2vec 預訓練詞嵌入的效果。研究結果表明, 不同Word2vec 模型的使用對不同深度學習模型的準確率有顯著影響。Ma J 等[20] 通過整合LDA 和Word2vec 生成了從全局視角到局部視角的語料庫主題演化圖, 發現并揭示了主題的多層次演變, 揭示了主題與主題出現、發展、成熟和衰落的整個生命周期之間的相關關系。

3 數據搜集

3.1 知乎平臺數據搜集

知乎已經成為一個高質量的問答社區。在知乎平臺上, 提問者的信息是匿名的, 以鼓勵高質量問題的提出, 當提問者發布一個問題后, 基于平臺的邀請機制, 會優先邀請同樣感興趣該話題的用戶來回答問題, 做到有問必有答[21] 。結合知乎平臺和大數據主題, 本研究在知乎平臺上選取了15 個代表性主流問題。表1 是問題和問題描述。

利用Python 程序爬取了表1 中15 個問題下的回答, 這些回答代表了知乎平臺中大數據主題下主流問題的回答, 反映了實踐界的聲音, 這些回答內容包含92 萬多字, 用于后續的文本挖掘。

3.2 中國知網平臺數據搜集

中國知網是目前中國最大的學術論文數據庫,是中國知識基礎設施工程(China Knowledge Infra?structure, CNKI)的組成部分, 為各行業的理論創新和知識生產提供了工具[22] 。在中國知網平臺首頁上, 先點擊學術期刊, 再點擊高級檢索, 期刊來源選擇“北大核心”, 檢索字段是“篇名”, 輸入“大數據” 進行精確檢索。自2012 年以來,“大數據” 一詞越來越多地被人們提及, 所以時間范圍設置為2012 年至今, 由于中國知網每次最高只可檢索出6 000篇文獻, 但是通過分別限定時間段為“2012—2017 年” “2018—2021 年” “2022—2023 年”即可擴展顯示數量, 分別得到5 662篇、5 920篇、1 188篇, 共計12 770篇中文文獻。利用中國知網的自定義導出文獻功能, 將檢索結果以xls 格式導出,每次導出文獻上限為500 篇, 通過多次文獻導出,總共導出文獻12 770篇, 這些學術文獻代表了中國知網平臺北大核心期刊中大數據研究的重要中文文獻的全集, 所有文獻的摘要用于后續的文本挖掘。

4 學術平臺和社會化問答平臺大數據比較分析

中國知網平臺中以大數據為主題的北大核心期刊的中文文獻代表了我國學術界的聲音, 知乎平臺中大數據主題下主流問題的回答代表了社會化問答平臺的聲音。本文利用Python 程序對數據進行預處理, 并借助神經網絡詞嵌入方法分別對預處理后的兩個語料庫進行Word2vec 模型訓練, 再結合訓練好的Word2vec 模型, 利用最相似詞語分析對我國學術平臺和社會化問答平臺的大數據關注熱點進行比較, 利用降維技術和數據可視化方法對所有詞語的詞嵌入概貌進行比較。

4.1 數據清洗和數據分析過程

利用Python 程序進行數據清洗。數據清洗的具體過程如下: 第一, 對于中國知網平臺導出的xls 格式數據, 對分次導出的12 770篇學術文獻進行合并以及摘要的讀取, 得到有效摘要12 765個, 對于在知乎平臺15 個問題下分別爬取的回答進行數據合并; 第二, 通過正則表達式的編寫, 清洗摘要和知乎回答中的非詞語符號; 第三, 借助Python 的Jieba庫, 對摘要和知乎回答進行分詞處理, 在分詞時,根據本研究的研究主題, 在Jieba 的自定義詞組中添加了“大數據” “大數據時代” 等詞語; 第四, 將哈工大停用詞表、四川大學機器智能實驗室停用詞表以及百度停用詞表進行整合得到新的中文詞表,結合新的中文詞表, 對摘要和知乎回答進行清洗,在此過程中, 反復結合清洗效果, 在停用詞表中增加了更多對文本特征沒有任何貢獻的字詞, 將最終形成的停用詞表用于清洗摘要和知乎回答。

利用Python 程序進行數據分析。數據分析的具體過程如下: 第一, 通過調用Gensim 庫下的Models 模塊中的Word2vec 類, 對清洗后的中國知網摘要所形成的語料庫進行訓練; 第二, 通過調用Gensim 庫下的Models 模塊中的Word2vec 類, 對清洗后的知乎回答所形成的語料庫進行訓練。

為了使兩個語料庫下的訓練結果具有可比性,在訓練模型的程序設計時, 使Word2Vec()的超參設置保持一致, 例如, sg = 0, 表明算法選擇為CBOW 模型, min_count= 2, 這使得頻率低于2 的詞語在模型訓練時會被忽略; vector_size= 100, 這表明每個詞語的輸出詞向量為100 維; window= 5,即窗口大小為5, 這使得當前詞與預測詞之間的最大距離為5; workers = 1, 這表明訓練模型在單一線程下進行。

4.2 大數據關注熱點比較分析結果和討論

通過Word2vec 模型訓練而學習得到的詞語向量是稠密的向量, 詞語之間的相似性是利用余弦相似度進行測量, 相似性能夠反映詞語在語義上的差異。在學習出來的詞語向量空間中, 與某個詞語聚集在一起的詞語在語義上相似性大, 例如, 與“大數據” 最相似的詞語反映了語義上與“大數據”最相似的詞語, 也就是說, 每當提到大數據時, 更可能也提到這些詞語, 從而使得這些詞語具有代表性并成為大數據的關注熱點。在對中國知網文獻摘要進行Word2vec 模型訓練后, 共計得到17 935個詞語, 每個詞語的維度為100 維。在對知乎回答進行Word2vec 模型訓練后, 共計得到11 424個詞語,每個詞語的維度為100 維。本文將結合最相似詞語分析對學術平臺和社會化問答平臺的關注熱點進行比較。

4.2.1 與“大數據” 最相似的前20 個詞語的比較

表2 顯示了中國知網文獻摘要與知乎回答中與“大數據” 最相似的前20 個詞語。

從表2 可以看出, 學術界和實踐界在大數據關注熱點上存在差異。從表2 的左半部可以看出, 學術界的研究焦點集中在大數據的數據挖掘、數據分析、技術、剖析、應用領域、內涵、數據管理等,與大數據最相似的詞語顯得學術化和規范化。確實,關于大數據的數據挖掘、數據分析、技術等, 官思發等[23] 從大數據驅動科學萌芽、大數據分析方法以及分析即服務3 個方面入手, 探討了國內外大數據分析研究的現狀。研究結果表明, 在大數據分析領域存在專業分析工具匱乏、數據建模、數據存儲、資源調度以及弱可用性這五大重要問題, 同時針對以上問題, 還提出了研發大數據分析平臺、優化數據分析模型、部署云存儲技術、彈性調度資源以及提升數據可用性這5 個解決方法。邢云菲等[24] 使用時空大數據挖掘技術, 以“天和核心艙發射” 話題為例, 基于知識圖譜理論探究了社交網絡中的輿情演化模式與規律。研究結果表明, 輿情主體的不同屬性反映了多聯的關系模式, 時間序列的不同顯著影響社交網絡輿情主體在空間上的關系。關于大數據技術, 孟秀麗等[25] 探討了大數據技術對眾包物流平臺及其接包方決策的影響。研究結果表明, 服務價格正向影響服務平臺和接包方的質量控制水平與大數據技術水平; 采取大數據技術策略的服務平臺, 平臺自身的質量控制水平會得到提高, 而對于接包方而言, 其質量控制水平不受大數據技術策略的影響。楊曉剛等[26] 探究了一種基于大數據技術的用戶小數據管理模式。研究結果表明, 大數據技術和傳統數據管理技術的結合有助于更加高效地管理小數據, 大大提升了面向用戶個體的信息服務質量。

從表2 的右半部分可以看出, 實踐界的大數據關注熱點集中在大數據的概念和概述上, 如層面、概念、理解、體現、定性、意義、基石、概述、洞悉, 并試圖探究大數據技術的應用, 如實踐、軟件產品、深入人心, 實踐界也比較關注大數據的發展, 如新一輪、大數據時代。

4.2.2 與“數據” 最相似的前20 個詞語的比較分析

對中國知網文獻摘要和知乎回答進行詞頻統計, 前10 個高頻詞如表3 所示。

詞頻在一定程度上能反映關注焦點, 但是, 詞頻并不能反映文本語義信息?;诒恚?, “數據” 是同時在中國知網文獻摘要和知乎回答中除“大數據” 外頻次最高的詞語。作為表2 的補充, 表4 顯示了與“數據” 最相似的前20 個詞語。

從表4 左半部分可以看出, 在中國知網文獻摘要中, 數據與數據類型密切相關, 如結構化、異構、龐雜、格式。數據還與數據的處理與分析關聯密切, 如整理、收集、清洗、采集、儲存、獲取、整合, 反映了學術界聚焦數據分析研究以推動數據價值的實現。關于數據分析與價值, 張俊瑞等[27]分析了商業大數據, 探究了大數據對數據資產合理估值的作用, 進一步完善了數據交易市場的基礎設施建設。張冬等[28] 通過分析主流媒體疫情信息數據探究了新冠疫情網絡輿情數據中網民情緒波動、關注度與主流媒體華語引導之間的關系, 具體方法是通過對這些數據進行情感分析及可視化, 分析結果表明, 主流媒體的報道對網民情緒緩解有積極作用。

從表4 右半部分可以看出, 在知乎回答中, 數據與數據處理有關聯, 如提取、存儲空間、駕馭、流轉, 說明在社會化問答平臺中, 數據處理成為關注的焦點。數據還與數據的體量有關聯, 如體量、速度、龐大、幾何級數、大小。此外, 社會化問答平臺還試圖探究數據的性質, 如來源、類型、種類、數據類型、可變性、多種多樣。

4.3 大數據詞嵌入概貌比較分析結果和討論

4.3.1 詞嵌入概貌的可視化

在進行詞轉向量建模時, 維度設置為100, 因此, 基于中國知網文獻摘要訓練的17 935個詞語的向量和基于知乎回答訓練的11 424個詞語的向量都是100 維。例如, 下面是基于中國知網文獻摘要訓練的模型中詞語“大數據” 100 維的值。

與詞語“大數據” 的向量維度類似, 所有詞語的向量維度都是100 維。詞向量可視化可以更直觀地展現出學術平臺和社會化問答平臺在大數據詞嵌入概貌上的差異。在對這兩個平臺的詞嵌入進行可視化之前, 需要分別將基于中國知網文獻摘要訓練的17 935個詞語和基于知乎回答訓練的11 424個詞語進行降維處理。具體可以利用t-SNE(t-distrib?uted Stochastic Neighbor Dmbedding)算法。t-SNE 是一種用于降維的機器學習算法, 主要用于將高維數據可視化展示。它可以將高維數據降為二維或者三維這種低維數據, 并在低維空間里保留了原始數據的局部特征, 使得高維空間數據中距離相近的點轉換到低維中仍然相近, 從而能在可視化時直觀地展現出來[29] 。Scikit-learn, 也稱為Sklearn, 是Py?thon 的一個第三方庫, 集成了許多經典的機器學習算法[30] 。Sklearn.manifold 是Scikit-learn 庫下的一個子模塊, 它提供了多種降維方法, t-SNE 就是其中之一, t-SNE 在對高維數據降維的同時保留了數據的局部結構和特征[31] 。通過調用t-SNE 的Fit_transform()方法, 將訓練模型中的所有詞語從100維降到2 維。例如, 基于中國知網文獻摘要訓練的模型中, 詞語“大數據” 降維后的向量值如下:

array([-68.00372,-0.3688781],dtype=float32)

再利用Matplotlib.pyplot 模塊編寫Python 程序,將降維后的數據進行可視化顯示。對于中國知網文獻摘要訓練模型中的17 935個詞語, 將每個詞語的二維值的第一個值設為x, 將第二個值設為y。由于該數據集體量較大, 數據點比較密集, 所以在設置詞語的顯示時, 為了保證詞語不重疊以及可視化的美觀性, 只能顯示少量詞語??紤]到前面針對“大數據”“數據” 這兩個詞進行了比較, 因此,先設定顯示這兩個詞, 然后, 設定從17 935個詞語中隨機選?。玻?個詞語, 這樣, 一共顯示25 個詞語, 生成的圖如圖1 所示。對于知乎回答訓練模型中的11 424個詞語, 進行類似的處理, 生成的圖如圖2 所示。

4.3.2可視化比較分析

圖1 和圖2 中的點分布反映了詞語之間的相似度, 每個點代表1 個詞語, 數據點密集程度越高,表明相似的詞語越多, 反之, 表明相似的詞語較少。從圖的形狀上來看, 圖1 和圖2 有著明顯的差異。在圖1 中, 詞語集中分布在圖形的中間, 圖1 的形狀好似一個傾斜的矩形。在圖2 中, 中間的空白表明兩邊的詞語存在較大的距離, 相似度小, 圖2 的形狀好似一個向左傾斜的U 型。

從“大數據” “數據” 兩個詞語在圖中所處的位置來看, 圖1 和圖2 有著明顯的差異。在圖1 中,“大數據” 和“數據” 都分布在圖的左側, “大數據” 在圖的上方, “數據” 在圖的下方, 且“大數據” 與“數據” 距離較遠, 說明這兩個詞語相似度較小, 它們的周圍都遍布著較多的點, 表明各自擁有較多相似的詞語。在圖2 中, “大數據” 和“數據” 都處在U 型左線條的高處, 并且這兩個詞語的距離較近, 表明這兩個詞語的相似度較高, 在它們的周圍都遍布著較多的點, 表明各自擁有較多相似的詞語。此外, U 型線右線條上聚集著更多的點, “大數據” “數據” 兩個詞語與U 型線右線條上的點中間存在一個空白區域, 這表明沒有詞語在中間發揮直接連接作用。

圖1 和圖2 是分別基于中國知網文獻摘要和知乎回答兩個語料庫訓練的模型, 在對詞語的向量降維后進行可視化顯示而生成的, 它們的差異直接反映了大數據詞嵌入概貌在學術平臺和社會化問答平臺上存在的整體差異。為了更好地探究哪些詞語具有相似性和哪些詞語不具有相似性, 可以更改隨機種子的狀態, 反復執行Python 代碼, 則會隨機抽樣得到不同的數據以展現不同的詞語, 從而進一步顯示在我國學術平臺和社會化問答平臺上大數據相關詞語分布上的差異。

5結語

有理由認為, 中國知網平臺中大數據的中文文獻能夠反映我國學術界的聲音, 知乎平臺中大數據主題下主流問題的回答能夠反映社會化問答平臺的聲音。本研究創新地利用Word2vec 神經網絡詞嵌入方法, 結合最相似詞語分析對學術平臺和社會化問答平臺的大數據關注熱點進行了比較, 利用降維和可視化方法, 對兩個平臺詞語的詞嵌入概貌進行了比較, 研究結果展現了學術平臺和社會化問答平臺在大數據方面的差異。未來可以從以下方面開展更多的研究: 第一, 本研究結合學術平臺和社會化問答平臺對大數據進行了比較分析, 未來可以結合更多平臺對大數據進行比較分析。第二, 大數據研究起源于國外, 未來可利用Word2vec 對國內外學者所做的大數據研究進行比較分析。第三, 大數據推動了數據驅動的人工智能的快速發展, 數據驅動的人工智能研究和實踐正在經歷從以模型為中心向以數據為中心的轉移, 未來可結合這個轉移更多探討大數據的資源特征。

猜你喜歡
比較研究大數據
“藏匿”與“炫耀”式景觀中植物種植的美學比較
唐寅仕女畫與喜多川歌麿美人畫比較研究
各國稅制結構與我國的比較研究
資產減值新舊會計準則比較研究
淺析媒介體制比較研究的框架設計和技術邏輯
大數據環境下基于移動客戶端的傳統媒體轉型思路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合