?

基于神經網絡詞嵌入的大數據關注熱點和詞嵌入概貌比較研究

2024-01-27 13:40周愛霞嚴亞蘭查先進

現代情報 2024年1期

關鍵詞：比較研究大數據

周愛霞　嚴亞蘭　查先進

關鍵詞：大數據；比較研究；學術平臺；社會化問答平臺；Ｗｏｒｄ２ｖｅｃ

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２４．０１．００４

〔中圖分類號〕Ｇ２０３〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２４）０１－００３７－１１

習近平總書記在中共中央政治局就實施國家大數據戰略進行第二次集體學習時指出： “大數據是信息化發展的新階段”［１］。數據快速成倍增長，從數據到大數據，不僅是量的積累，更是質的飛躍［２］。大數據是數字化轉型和數字經濟的重要基石［３］。自大數據（ＢｉｇＤａｔａ）作為一個概念被提出以來，它就受到工業界、學術界、政府等的廣泛關注，大數據已對社會和經濟發展產生了重大影響，并將持續產生更大的影響。

我國學者對大數據開展了廣泛的研究并產出了大量的成果。同時，知乎已成為優秀的社會化問答平臺，大數據在知乎平臺上通過問題和回答的方式受到了廣泛關注。例如，在問題“如何準確又通俗易懂地解釋大數據及其應用價值？” 下，答主們圍繞大數據的定義、應用場景以及價值等方面，系統而全面地回答了該問題。又如，在問題“大數據最核心的價值是什么？” 下，有一條高贊回答認為，大數據的核心價值是了解和挖掘用戶的行為習慣和愛好。再如，在問題“普及一下什么是大數據技術？”下，有一位答主的回答得到了大家的廣泛認同，該答主認為大數據技術是一套完整的“數據＋業務＋需求” 的解決方案。

Ｗｏｒｄ２ｖｅｃ是新興的神經網絡詞嵌入算法，也是最近幾年人工智能領域自然語言處理技術得以快速發展的根基，它不僅計算成本低，而且準確度高，能夠同時在語法和語義層面對詞語的相似度進行有效的測度。結合不同平臺的語料庫訓練Ｗｏｒｄ２ｖｅｃ模型，可以結合語義相似詞對不同平臺的關注熱點進行比較，可以利用降維技術和數據可視化方法對詞嵌入概貌進行比較。本研究利用Ｗｏｒｄ２ｖｅｃ神經網絡詞嵌入算法，結合我國學術平臺和社會化問答平臺對大數據關注熱點和詞嵌入概貌進行比較分析，為大數據研究提供新的視角。

１大數據相關研究和本研究的切入點

大數據一直是學術界的研究熱點。隨著云計算、移動互聯網、物聯網等下一代信息技術的快速融合和發展，數據呈現指數級增長［４］。在我國，大數據研究受到越來越多的關注。黃家良等［５］探討了如何應用大數據促進虛擬社區的知識共享行為。他們構建了基于大數據的虛擬社區知識共享體系架構，研究結果表明，該架構具有較高的可行性和價值意義，可以挖掘虛擬社區的大數據價值從而提高平臺的知識共享水平。甄藝凱［６］針對互聯網經濟中存在的價格歧視問題，在轉移成本視角下，通過構建一個三階段動態博弈，探究了企業在寡頭競爭市場中的大數據“殺熟” 動機，研究結果表明，當轉移成本較大時，至少存在一家企業有“殺熟” 動機；相反， “殺熟” 策略并不會出現在子博弈精煉納什均衡路徑上。張彬等［７］基于大數據環境，構建了興趣知識圖譜，探討了用戶興趣之間的關系，研究結果表明，該模型有效融合擴展了不同類型的興趣關聯知識，且與單一來源數據相比，該模型在用戶興趣的查準率和覆蓋率上都有所提升，用戶興趣描繪的準確性和全面性也得到了優化。王旸等［８］從社會化媒體平臺視角出發，構建了系統化的社會化媒體大數據資源模型，建立了用戶在線活動的“主體—操作—對象” 過程框架，探討了社會化媒體平臺建立大數據資源觀的重要性，研究結果表明，相較于現有研究，該研究提出的模型在完整性、準確性、易理解性、可擴展性等方面都得到了提升。任曙明等［９］通過構建理論模型，探討了大數據應用如何影響企業的創新資源錯配，研究結果表明，大數據應用主要是通過技術壁壘效應以及知識流動效應影響企業創新資源錯配。

可以看出，我國學者已經針對大數據開展了廣泛的研究。為了推動我國大數據研究取得更多的成果，推動學術界更多結合我國大數據實踐和社會需求而展開研究，有必要回答以下問題：我國學術平臺和社會化問答平臺在大數據關注熱點上存在什么差異？我國學術平臺和社會化問答平臺在大數據詞嵌入概貌上存在什么差異？如何有效地展現和比較關注熱點上的差異和詞嵌入概貌上的差異？這些問題構成了本研究的切入點。從研究范式上看，本研究屬于數據驅動的研究，對于數據驅動的研究，當數據量足夠大時，數據分析結果不僅僅展現的是現象，而是具有一定的穩健性和科學價值。本研究遵循數據驅動的研究范式，通過知乎平臺搜集了大數據主題下主流問題的回答，回答內容包含９２萬多字；通過中國知網平臺搜集了１２７７０篇文獻，這些文獻代表了北大核心期刊中大數據研究重要文獻的全集；然后創新地利用Ｗｏｒｄ２ｖｅｃ神經網絡詞嵌入方法，結合我國學術平臺和社會化問答平臺對大數據關注熱點和詞嵌入概貌進行了比較分析。

２研究方法：神經網絡詞嵌入

在自然語言處理領域，詞嵌入是一項非常重要的技術。詞嵌入表示中最簡單和最知名的是獨熱編碼（Ｏｎｅ－ｈｏｔＥｎｃｏｄｉｎｇ）。獨熱編碼的維度由詞庫的大小決定，獨熱編碼在表示詞語的時候存在明顯的維度災難，有多少詞語就需要有多少維，因此對于龐大的語料庫來說，計算量和存儲量都是很大的問題［１０］。

Ｗｏｒｄ２ｖｅｃ模型是由Ｇｏｏｇｌｅ團隊于２０１３年發明的基于神經網絡的詞嵌入方法，在訓練向量空間模型的速度上大大優于以往的方法［１１］。Ｗｏｒｄ２ｖｅｃ有一個很重要的假設：文本中離得越近的詞語相似度越高?；谶@個假設，Ｗｏｒｄ２ｖｅｃ用連續詞袋模型（ＣｏｎｔｉｎｕｏｕｓＢａｇｏｆＷｏｒｄｓ，ＣＢＯＷ）架構和Ｓｋｉｐ－ｇｒａｍ架構來計算詞向量矩陣。ＣＢＯＷ是用上下文詞來預測中心詞，而Ｓｋｉｐ－ｇｒａｍ是用中心詞來預測上下文，它們有著準確度高、計算成本低的特點，能夠在語義層面和語法層面有效測度詞語的相似度［１１］。Ｐｙｔｈｏｎ中的Ｇｅｎｓｉｍ庫提供了ＡＰＩ接口，可以使用Ｗｏｒｄ２ｖｅｃ的這兩種框架［１２］。

Ｗｏｒｄ２ｖｅｃ已被廣泛應用于科研和工作中，可以用來做情感分析［１３－１４］、中文分詞［１５］、句法依存分析［１６－１７］等。谷瑩等［１８］利用Ｗｏｒｄ２ｖｅｃ技術構建了產品特征詞集合，構建了基于在線產品評論的企業競爭情報框架。該研究以汽車行業的評價為數據集進行實驗，研究結果表明，該方法能夠有效識別產品的情報信息，為企業制定競爭策略和優化產品設計提供依據，為大數據環境下的企業競爭情報挖掘提供方法。ＹｉｌｍａｚＳ等［１９］使用Ｗｏｒｄ２ｖｅｃ方法構建了詞嵌入，在由用戶問題組成的大型語料庫上構建了具有不同向量大小的ＣＢＯＷ和Ｓｋｉｐ－ｇｒａｍ模型，測試了使用不同的Ｗｏｒｄ２ｖｅｃ預訓練詞嵌入的效果。研究結果表明，不同Ｗｏｒｄ２ｖｅｃ模型的使用對不同深度學習模型的準確率有顯著影響。ＭａＪ等［２０］通過整合ＬＤＡ和Ｗｏｒｄ２ｖｅｃ生成了從全局視角到局部視角的語料庫主題演化圖，發現并揭示了主題的多層次演變，揭示了主題與主題出現、發展、成熟和衰落的整個生命周期之間的相關關系。

３數據搜集

３.１知乎平臺數據搜集

知乎已經成為一個高質量的問答社區。在知乎平臺上，提問者的信息是匿名的，以鼓勵高質量問題的提出，當提問者發布一個問題后，基于平臺的邀請機制，會優先邀請同樣感興趣該話題的用戶來回答問題，做到有問必有答［２１］。結合知乎平臺和大數據主題，本研究在知乎平臺上選取了１５個代表性主流問題。表１是問題和問題描述。

利用Ｐｙｔｈｏｎ程序爬取了表１中１５個問題下的回答，這些回答代表了知乎平臺中大數據主題下主流問題的回答，反映了實踐界的聲音，這些回答內容包含９２萬多字，用于后續的文本挖掘。

３.２中國知網平臺數據搜集

中國知網是目前中國最大的學術論文數據庫，是中國知識基礎設施工程（ＣｈｉｎａＫｎｏｗｌｅｄｇｅＩｎｆｒａ?ｓｔｒｕｃｔｕｒｅ，ＣＮＫＩ）的組成部分，為各行業的理論創新和知識生產提供了工具［２２］。在中國知網平臺首頁上，先點擊學術期刊，再點擊高級檢索，期刊來源選擇“北大核心”，檢索字段是“篇名”，輸入“大數據” 進行精確檢索。自２０１２年以來，“大數據” 一詞越來越多地被人們提及，所以時間范圍設置為２０１２年至今，由于中國知網每次最高只可檢索出６０００篇文獻，但是通過分別限定時間段為“２０１２—２０１７年” “２０１８—２０２１年” “２０２２—２０２３年”即可擴展顯示數量，分別得到５６６２篇、５９２０篇、１１８８篇，共計１２７７０篇中文文獻。利用中國知網的自定義導出文獻功能，將檢索結果以ｘｌｓ格式導出，每次導出文獻上限為５００篇，通過多次文獻導出，總共導出文獻１２７７０篇，這些學術文獻代表了中國知網平臺北大核心期刊中大數據研究的重要中文文獻的全集，所有文獻的摘要用于后續的文本挖掘。

４學術平臺和社會化問答平臺大數據比較分析

中國知網平臺中以大數據為主題的北大核心期刊的中文文獻代表了我國學術界的聲音，知乎平臺中大數據主題下主流問題的回答代表了社會化問答平臺的聲音。本文利用Ｐｙｔｈｏｎ程序對數據進行預處理，并借助神經網絡詞嵌入方法分別對預處理后的兩個語料庫進行Ｗｏｒｄ２ｖｅｃ模型訓練，再結合訓練好的Ｗｏｒｄ２ｖｅｃ模型，利用最相似詞語分析對我國學術平臺和社會化問答平臺的大數據關注熱點進行比較，利用降維技術和數據可視化方法對所有詞語的詞嵌入概貌進行比較。

４.１數據清洗和數據分析過程

利用Ｐｙｔｈｏｎ程序進行數據清洗。數據清洗的具體過程如下：第一，對于中國知網平臺導出的ｘｌｓ格式數據，對分次導出的１２７７０篇學術文獻進行合并以及摘要的讀取，得到有效摘要１２７６５個，對于在知乎平臺１５個問題下分別爬取的回答進行數據合并；第二，通過正則表達式的編寫，清洗摘要和知乎回答中的非詞語符號；第三，借助Ｐｙｔｈｏｎ的Ｊｉｅｂａ庫，對摘要和知乎回答進行分詞處理，在分詞時，根據本研究的研究主題，在Ｊｉｅｂａ的自定義詞組中添加了“大數據” “大數據時代” 等詞語；第四，將哈工大停用詞表、四川大學機器智能實驗室停用詞表以及百度停用詞表進行整合得到新的中文詞表，結合新的中文詞表，對摘要和知乎回答進行清洗，在此過程中，反復結合清洗效果，在停用詞表中增加了更多對文本特征沒有任何貢獻的字詞，將最終形成的停用詞表用于清洗摘要和知乎回答。

利用Ｐｙｔｈｏｎ程序進行數據分析。數據分析的具體過程如下：第一，通過調用Ｇｅｎｓｉｍ庫下的Ｍｏｄｅｌｓ模塊中的Ｗｏｒｄ２ｖｅｃ類，對清洗后的中國知網摘要所形成的語料庫進行訓練；第二，通過調用Ｇｅｎｓｉｍ庫下的Ｍｏｄｅｌｓ模塊中的Ｗｏｒｄ２ｖｅｃ類，對清洗后的知乎回答所形成的語料庫進行訓練。

為了使兩個語料庫下的訓練結果具有可比性，在訓練模型的程序設計時，使Ｗｏｒｄ２Ｖｅｃ（）的超參設置保持一致，例如，ｓｇ＝０，表明算法選擇為ＣＢＯＷ模型，ｍｉｎ＿ｃｏｕｎｔ＝２，這使得頻率低于２的詞語在模型訓練時會被忽略；ｖｅｃｔｏｒ＿ｓｉｚｅ＝１００，這表明每個詞語的輸出詞向量為１００維；ｗｉｎｄｏｗ＝５，即窗口大小為５，這使得當前詞與預測詞之間的最大距離為５；ｗｏｒｋｅｒｓ＝１，這表明訓練模型在單一線程下進行。

４.２大數據關注熱點比較分析結果和討論

通過Ｗｏｒｄ２ｖｅｃ模型訓練而學習得到的詞語向量是稠密的向量，詞語之間的相似性是利用余弦相似度進行測量，相似性能夠反映詞語在語義上的差異。在學習出來的詞語向量空間中，與某個詞語聚集在一起的詞語在語義上相似性大，例如，與“大數據” 最相似的詞語反映了語義上與“大數據”最相似的詞語，也就是說，每當提到大數據時，更可能也提到這些詞語，從而使得這些詞語具有代表性并成為大數據的關注熱點。在對中國知網文獻摘要進行Ｗｏｒｄ２ｖｅｃ模型訓練后，共計得到１７９３５個詞語，每個詞語的維度為１００維。在對知乎回答進行Ｗｏｒｄ２ｖｅｃ模型訓練后，共計得到１１４２４個詞語，每個詞語的維度為１００維。本文將結合最相似詞語分析對學術平臺和社會化問答平臺的關注熱點進行比較。

４.２.１與“大數據” 最相似的前２０個詞語的比較

表２顯示了中國知網文獻摘要與知乎回答中與“大數據” 最相似的前２０個詞語。

從表２可以看出，學術界和實踐界在大數據關注熱點上存在差異。從表２的左半部可以看出，學術界的研究焦點集中在大數據的數據挖掘、數據分析、技術、剖析、應用領域、內涵、數據管理等，與大數據最相似的詞語顯得學術化和規范化。確實，關于大數據的數據挖掘、數據分析、技術等，官思發等［２３］從大數據驅動科學萌芽、大數據分析方法以及分析即服務３個方面入手，探討了國內外大數據分析研究的現狀。研究結果表明，在大數據分析領域存在專業分析工具匱乏、數據建模、數據存儲、資源調度以及弱可用性這五大重要問題，同時針對以上問題，還提出了研發大數據分析平臺、優化數據分析模型、部署云存儲技術、彈性調度資源以及提升數據可用性這５個解決方法。邢云菲等［２４］使用時空大數據挖掘技術，以“天和核心艙發射” 話題為例，基于知識圖譜理論探究了社交網絡中的輿情演化模式與規律。研究結果表明，輿情主體的不同屬性反映了多聯的關系模式，時間序列的不同顯著影響社交網絡輿情主體在空間上的關系。關于大數據技術，孟秀麗等［２５］探討了大數據技術對眾包物流平臺及其接包方決策的影響。研究結果表明，服務價格正向影響服務平臺和接包方的質量控制水平與大數據技術水平；采取大數據技術策略的服務平臺，平臺自身的質量控制水平會得到提高，而對于接包方而言，其質量控制水平不受大數據技術策略的影響。楊曉剛等［２６］探究了一種基于大數據技術的用戶小數據管理模式。研究結果表明，大數據技術和傳統數據管理技術的結合有助于更加高效地管理小數據，大大提升了面向用戶個體的信息服務質量。

從表２的右半部分可以看出，實踐界的大數據關注熱點集中在大數據的概念和概述上，如層面、概念、理解、體現、定性、意義、基石、概述、洞悉，并試圖探究大數據技術的應用，如實踐、軟件產品、深入人心，實踐界也比較關注大數據的發展，如新一輪、大數據時代。

４.２.２與“數據” 最相似的前２０個詞語的比較分析

對中國知網文獻摘要和知乎回答進行詞頻統計，前１０個高頻詞如表３所示。

詞頻在一定程度上能反映關注焦點，但是，詞頻并不能反映文本語義信息?；诒恚?， “數據” 是同時在中國知網文獻摘要和知乎回答中除“大數據” 外頻次最高的詞語。作為表２的補充，表４顯示了與“數據” 最相似的前２０個詞語。

從表４左半部分可以看出，在中國知網文獻摘要中，數據與數據類型密切相關，如結構化、異構、龐雜、格式。數據還與數據的處理與分析關聯密切，如整理、收集、清洗、采集、儲存、獲取、整合，反映了學術界聚焦數據分析研究以推動數據價值的實現。關于數據分析與價值，張俊瑞等［２７］分析了商業大數據，探究了大數據對數據資產合理估值的作用，進一步完善了數據交易市場的基礎設施建設。張冬等［２８］通過分析主流媒體疫情信息數據探究了新冠疫情網絡輿情數據中網民情緒波動、關注度與主流媒體華語引導之間的關系，具體方法是通過對這些數據進行情感分析及可視化，分析結果表明，主流媒體的報道對網民情緒緩解有積極作用。

從表４右半部分可以看出，在知乎回答中，數據與數據處理有關聯，如提取、存儲空間、駕馭、流轉，說明在社會化問答平臺中，數據處理成為關注的焦點。數據還與數據的體量有關聯，如體量、速度、龐大、幾何級數、大小。此外，社會化問答平臺還試圖探究數據的性質，如來源、類型、種類、數據類型、可變性、多種多樣。

４.３大數據詞嵌入概貌比較分析結果和討論

４.３.１詞嵌入概貌的可視化

在進行詞轉向量建模時，維度設置為１００，因此，基于中國知網文獻摘要訓練的１７９３５個詞語的向量和基于知乎回答訓練的１１４２４個詞語的向量都是１００維。例如，下面是基于中國知網文獻摘要訓練的模型中詞語“大數據” １００維的值。

與詞語“大數據” 的向量維度類似，所有詞語的向量維度都是１００維。詞向量可視化可以更直觀地展現出學術平臺和社會化問答平臺在大數據詞嵌入概貌上的差異。在對這兩個平臺的詞嵌入進行可視化之前，需要分別將基于中國知網文獻摘要訓練的１７９３５個詞語和基于知乎回答訓練的１１４２４個詞語進行降維處理。具體可以利用ｔ－ＳＮＥ（ｔ－ｄｉｓｔｒｉｂ?ｕｔｅｄＳｔｏｃｈａｓｔｉｃＮｅｉｇｈｂｏｒＤｍｂｅｄｄｉｎｇ）算法。ｔ－ＳＮＥ是一種用于降維的機器學習算法，主要用于將高維數據可視化展示。它可以將高維數據降為二維或者三維這種低維數據，并在低維空間里保留了原始數據的局部特征，使得高維空間數據中距離相近的點轉換到低維中仍然相近，從而能在可視化時直觀地展現出來［２９］。Ｓｃｉｋｉｔ－ｌｅａｒｎ，也稱為Ｓｋｌｅａｒｎ，是Ｐｙ?ｔｈｏｎ的一個第三方庫，集成了許多經典的機器學習算法［３０］。Ｓｋｌｅａｒｎ．ｍａｎｉｆｏｌｄ是Ｓｃｉｋｉｔ－ｌｅａｒｎ庫下的一個子模塊，它提供了多種降維方法，ｔ－ＳＮＥ就是其中之一，ｔ－ＳＮＥ在對高維數據降維的同時保留了數據的局部結構和特征［３１］。通過調用ｔ－ＳＮＥ的Ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（）方法，將訓練模型中的所有詞語從１００維降到２維。例如，基于中國知網文獻摘要訓練的模型中，詞語“大數據” 降維后的向量值如下：

ａｒｒａｙ（［－６８.００３７２，－０.３６８８７８１］，ｄｔｙｐｅ＝ｆｌｏａｔ３２）

再利用Ｍａｔｐｌｏｔｌｉｂ．ｐｙｐｌｏｔ模塊編寫Ｐｙｔｈｏｎ程序，將降維后的數據進行可視化顯示。對于中國知網文獻摘要訓練模型中的１７９３５個詞語，將每個詞語的二維值的第一個值設為ｘ，將第二個值設為ｙ。由于該數據集體量較大，數據點比較密集，所以在設置詞語的顯示時，為了保證詞語不重疊以及可視化的美觀性，只能顯示少量詞語?？紤]到前面針對“大數據”“數據” 這兩個詞進行了比較，因此，先設定顯示這兩個詞，然后，設定從１７９３５個詞語中隨機選?。玻?個詞語，這樣，一共顯示２５個詞語，生成的圖如圖１所示。對于知乎回答訓練模型中的１１４２４個詞語，進行類似的處理，生成的圖如圖２所示。

４.３.２可視化比較分析

圖１和圖２中的點分布反映了詞語之間的相似度，每個點代表１個詞語，數據點密集程度越高，表明相似的詞語越多，反之，表明相似的詞語較少。從圖的形狀上來看，圖１和圖２有著明顯的差異。在圖１中，詞語集中分布在圖形的中間，圖１的形狀好似一個傾斜的矩形。在圖２中，中間的空白表明兩邊的詞語存在較大的距離，相似度小，圖２的形狀好似一個向左傾斜的Ｕ型。

從“大數據” “數據” 兩個詞語在圖中所處的位置來看，圖１和圖２有著明顯的差異。在圖１中，“大數據” 和“數據” 都分布在圖的左側， “大數據” 在圖的上方， “數據” 在圖的下方，且“大數據” 與“數據” 距離較遠，說明這兩個詞語相似度較小，它們的周圍都遍布著較多的點，表明各自擁有較多相似的詞語。在圖２中， “大數據” 和“數據” 都處在Ｕ型左線條的高處，并且這兩個詞語的距離較近，表明這兩個詞語的相似度較高，在它們的周圍都遍布著較多的點，表明各自擁有較多相似的詞語。此外，Ｕ型線右線條上聚集著更多的點， “大數據” “數據” 兩個詞語與Ｕ型線右線條上的點中間存在一個空白區域，這表明沒有詞語在中間發揮直接連接作用。

圖１和圖２是分別基于中國知網文獻摘要和知乎回答兩個語料庫訓練的模型，在對詞語的向量降維后進行可視化顯示而生成的，它們的差異直接反映了大數據詞嵌入概貌在學術平臺和社會化問答平臺上存在的整體差異。為了更好地探究哪些詞語具有相似性和哪些詞語不具有相似性，可以更改隨機種子的狀態，反復執行Ｐｙｔｈｏｎ代碼，則會隨機抽樣得到不同的數據以展現不同的詞語，從而進一步顯示在我國學術平臺和社會化問答平臺上大數據相關詞語分布上的差異。

５結語

有理由認為，中國知網平臺中大數據的中文文獻能夠反映我國學術界的聲音，知乎平臺中大數據主題下主流問題的回答能夠反映社會化問答平臺的聲音。本研究創新地利用Ｗｏｒｄ２ｖｅｃ神經網絡詞嵌入方法，結合最相似詞語分析對學術平臺和社會化問答平臺的大數據關注熱點進行了比較，利用降維和可視化方法，對兩個平臺詞語的詞嵌入概貌進行了比較，研究結果展現了學術平臺和社會化問答平臺在大數據方面的差異。未來可以從以下方面開展更多的研究：第一，本研究結合學術平臺和社會化問答平臺對大數據進行了比較分析，未來可以結合更多平臺對大數據進行比較分析。第二，大數據研究起源于國外，未來可利用Ｗｏｒｄ２ｖｅｃ對國內外學者所做的大數據研究進行比較分析。第三，大數據推動了數據驅動的人工智能的快速發展，數據驅動的人工智能研究和實踐正在經歷從以模型為中心向以數據為中心的轉移，未來可結合這個轉移更多探討大數據的資源特征。

猜你喜歡

比較研究大數據

“藏匿”與“炫耀”式景觀中植物種植的美學比較

人間(2016年28期)2016-11-10

唐寅仕女畫與喜多川歌麿美人畫比較研究

美與時代·美術學刊(2016年8期)2016-11-09

各國稅制結構與我國的比較研究

商場現代化(2016年22期)2016-10-18

資產減值新舊會計準則比較研究

商場現代化(2016年22期)2016-10-18

淺析媒介體制比較研究的框架設計和技術邏輯

今傳媒(2016年9期)2016-10-15

大數據環境下基于移動客戶端的傳統媒體轉型思路

新聞世界(2016年10期)2016-10-11

現代情報2024年1期

現代情報的其它文章: 面向公共政策制定全過程的輿情情報服務框架研究; 在線健康社區用戶參與動機對參與治理行為的組態效應研究; 我國省級政府數據開放平臺服務的優化策略研究; 數據生命周期視角下的醫療健康大數據質量評價研究; 融合Altmetrics指標的領域高產學者綜合影響力研究; 地理鄰近性對專利技術轉移速度的影響研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合