?

情報學研究中的時間序列分析:任務、過程與問題

2023-12-21 10:58陳果王凱月
圖書情報知識 2023年6期
關鍵詞:情報學輿情預測

陳果 王凱月

1 引言

在時間維度上,對每一時刻數據的記錄就是時間序列[1]。時間序列數據在生活中無處不在,對其開展研究具有十分廣闊的應用前景。在傳統計量經濟學中,時間序列分析關注的是經濟指標的日常變化,其中受關注較多的是周期性問題,如季節效應[2]。情報學定量研究中多關注文獻數據、網絡數據、政府數據等分析對象的變化[3],其變化趨勢更接近階段性。典型的如利用生命周期理論,劃分文獻主題、輿情話題在不同時期的變化階段。除此以外,利用回歸、擬合等方式對時間變化曲線進行數理統計和描述,也是情報學研究中時間序列分析的一個重要方面。

近年來,時間序列分析方法不斷發展優化,在時間序列分類、預測、聚類、回歸分析、異常檢測等方面都得到了深入的應用[4]。然而,在情報學研究中,盡管大量研究引入了時間因素,但多是從劃分時間段的視角來對所關注對象的變化狀態進行描述性分析,或沿用基本的回歸模型來擬合其整體變化趨勢,而對情報研究對象時間序列模式的深入挖掘和分析依然較為缺乏[5]。當前,情報學研究的模型化、預測化發展趨勢,迫切要求研究者更為深入地應用時間序列分析方法開展研究。因此,有必要對現階段情報學中涉及時間序列分析的研究進行系統性的梳理。

鑒于此,本文采用文獻調研的方式,梳理國內外情報學領域與時間序列分析相關的研究現狀。首先,依據《中文核心期刊要目總覽》和SSCI-INFORMATION SCIENCE&LI-BRARY SCIENCE-JOURNAL LIST[4]選定了情報學代表性期刊,如表1所示。其次,利用CNKI全文期刊數據庫以及Web of Science數據庫,以“時間序列”和“time series”為主題詞分別篩選中英文代表性期刊中的相關文獻,檢索時間截至2023年4月30日。結果表明,情報學領域與時間序列相關的國內外研究論文分別有222篇和202篇。隨后,在對這些論文進行初步定性分析的基礎上,本文先按應用場景歸納其中的應用類論文,再按時間序列分析過程歸納相關論文在各環節上的典型處理方法。具體歸納時,對某些值得探索的問題,本文進一步追溯了上述論文的參考文獻,最終選取了其中質量較高、具有代表性的82篇論文進行綜述?;诖?,本文最后探討了情報學研究中時間序列分析存在的問題,以期為其深入發展和有效應用提供借鑒。

表1 中外情報學十種核心期刊中相關論文統計結果Table 1 Statistical Results of Related Papers in Ten Core Domestic and Foreign Journals of Information Science Research

2 情報學研究中時間序列分析的主要任務場景

在情報學研究中,時間序列分析主要是用作解決相關研究問題的方法手段。因此,有必要根據所解決問題的任務場景,來歸納時間序列分析方法在情報學研究中的應用。此外,時間序列分析的核心思想是“分析過去,預測未來”,故而各任務場景下的應用模式又可根據研究目標,劃分為對歷史規律的揭示和對未來趨勢的預測。相應地,本節從任務場景和研究目標兩個維度,對情報學研究中的幾種時間序列研究任務進行歸納,如圖1所示。

圖1 情報學研究中時間序列分析的研究任務歸納Fig.1 Task Scenarios for Time Series Analysis in Information Science Research

2.1 學科主題演化

學科主題演化是指用一系列技術方法,觀測學科主題在時間維度上的變化與發展趨勢[6]。學科主題演化是近年來情報學研究的重點,在分析學科領域熱點主題演化趨勢的基礎上,研究者開始探索新興主題預測以發現新的學科知識增長點。對學科主題演化的研究可以幫助研究人員確定科研主題,幫助研究資助機構選擇有發展潛力的主題進行資助,還可以識別領域學術貢獻突出的研究人員與研究機構。

當前的學科主題演化研究,主要是在對不同時間窗口下各研究主題進行匹配的基礎上,通過文獻數量、關鍵詞頻次等數值序列的變化以揭示相關主題在不同時間窗口的熱度變化,進而描述重要主題的出現、融合、分裂、消失等演化狀態。一般認為,主題相關發文量的變化可以體現主題的熱度演變[7]。但該指標過于主觀籠統,隨著主題識別的技術手段的不斷豐富,情報學研究開始以關鍵詞或主題詞等為主要研究對象[8]。例如,Yan等以圖情領域的文獻數據主題詞為數據來源,結合層次化分析的方法揭示了主題的傳播演化過程[9]。同時,也有學者將時間因素引入到主題模型中,提出了非馬爾可夫連續時間模型TOT(Topics Over Time)[10]、先離散概率模型DTM(Dynamic Topic Model)等方法,進一步體現了主題的時序演變過程。此外,對于語義相似的時間序列曲線,也可以通過DTW(Dynamic Time Warping)算法對其聚合表示,以便于觀測其組合變化趨勢[11]。

情報學研究者十分關注前沿主題或新興主題的預測,目前這類研究主要利用各種指標來度量主題在時間序列曲線上的變化,通過時間序列回歸等模型來擬合曲線規律以預測其未來趨勢。例如,岳麗欣等使用ARIMA模型(Autoregressive Integrated Moving Average model,差分整合移動平均自回歸模型)預測了信息構建領域的主題演變趨勢[5]。Liang等使用LSTM模型(Long Short Term Memory)預測了候選主題的未來受歡迎程度分數[12]。Lee等使用ATM模型(Associative Topic Model),根據主題過去的文本和數值特征來預測下一個時間數值[13]。目前,主題時間序列預測研究的觀測對象大多是單變量數據,使用多元時間序列預測方法的研究較少。事實上,科學研究的主題是相互關聯的,有必要充分考慮主題間的關聯,來提高對特定主題未來變化的預測效果[14]。

2.2 網絡輿情分析

監測輿情的變化動態并挖掘其話題演變規律是情報學研究者持續關注的焦點,其時間序列分析主要圍繞輿情的話題或情感變化來探索演化規律或預測發展趨勢[15]。

在輿情演化方面,研究者通常從輿情事件的時空關聯、主題分布和傳播特征等方面出發,將文本中提取的信息按照時間維度開展演化分析[16]。目前已有較多研究從定性的視角,將輿情演化按時間軸劃分為若干個階段[17]。例如,李綱等[18]根據Web2.0時代網絡輿情的傳播特征,將其過程劃分潛伏、成長、蔓延、爆發、衰退和消亡等6個階段。有學者運用定性、定量相結合的方式對輿情的演化規律進行研究[19],以避免定性分析的主觀影響。例如,曹學艷等[20]利用基于最小二乘法的多項式擬合法,根據網絡輿情的時間序列函數特征,將其演化模式分為突發型、連續型和復合型。

網絡輿情傳播規律的研究通常依托于其關注熱度、網民情感態度、熱點主題等的變化。具體研究開展中,輿情熱度常用百度指數、微博轉發數、評論數[21]等數據來表征。例如,徐敏捷等利用微博熱議數來表征“東方之星”沉船事件的輿情熱度變化趨勢[22],趙磊等以百度指數構建輿情熱度時間序列[23],孫永歷等綜合用戶關注度、參與度和話題回復數三個指標來計算輿情熱度的熵值[24]。輿情情感態度可用情感分析方法對輿情話題進行情感計算,再按時間序列形成輿情情感的走勢。例如,崔彥琛等[25]構建了微博突發事件“杭州保姆縱火案”的專屬情感詞典,利用ARIMA模型分析了該事件的事態演進。輿情熱點主題的變化可通過對帶有時間戳的社交媒體語料進行主題分析得到。例如,張帥等統計了不同時間段各類主題出現的頻次,并劃分了其時間序列階段[26]。

目前針對輿情數據的預測主要有三種思路:一是根據相似話題的時間序列規律來預測新事件的發展走向。例如,聶恩倫等[27]通過相似歷史話題點擊數的時間序列來預測新話題的熱度。二是更為常見的利用時間序列分析模型來預測輿情數據,如移動平均法[28]、馬爾科夫鏈[21]、ARIMA/ARIMAX預測模型[29]等。三是依托時間序列聚類方法,即將形狀變化相似的時間序列聚集在一起,再預測其熱度趨勢。例如,高燁等[11]利用時間序列降維算法將輿情熱度的時間序列曲線聚成三類變化模式,再通過DTW距離方法來預測網絡輿情事件熱度的高峰期時間區。需要注意的是,不同輿情事件的傳播規律、持續時間不盡相同,輿情數據預測的精度又嚴重依賴于其算法和參數,因此如何提高時序預測方法在應用中的適用性是一個亟需解決的問題。

2.3 技術趨勢分析

專利蘊含技術概念、主題和研發活動等顯性技術信息和隱性知識[30],是技術趨勢分析和預測的常用數據源。專利情報研究者常使用生長曲線(如S曲線[31])表示技術的演化過程,并使用時間序列分析方法發現技術發展趨勢的軌跡和模式。

技術演化是指技術領域內部的技術活動、子技術或技術主題隨著時間推移的發展、繼承和變化的過程。在專利分析中,可使用文獻計量方法來識別技術演化的基本特征數據,如特定技術的專利申請數量、引文數、專利分類號等。曾聞等分析了人工智能技術的專利申請數量、國別等專利信息隨時間的變化[32]。Wang等[33]利用國際專利分類(IPCs)來追蹤技術領域和演進路徑中的技術變化。Liu等[34]使用三個S曲線模型擬合日本雙足機器人行走技術的專利時間序列曲線,以揭示其演化趨勢。

預測技術變化的方向和速度也是時間序列分析在情報學研究中的典型應用之一,常用的方法包括文獻計量分析、趨勢外推法、動態線性模型等。專利數量、發表數量或引用數量等指標可以用來衡量和解釋技術進步。例如,You等基于專利和專利子類之間的兩級知識轉移網絡,利用巴斯擴散模型和ARIMA兩種典型時間序列模型比較并預測了技術的發展趨勢[35]。為了更有效地擬合專利數據的時間序列曲線,機器學習方法越來越多地運用于技術趨勢預測。專利數據通常是短時間序列,Xin等[36]利用參數量更少的卷積神經網絡CNN模型捕捉時間序列模式以預測技術趨勢。需要指出的是,在技術趨勢預測中,現有技術方法容易忽視技術創新的隨機性,高估了現有技術主題的持續發展能力,低估了新技術的出現速度[37]。

2.4 學術影響力評價

引文是評價學術影響力的一個重要依據,典型的相關指標有期刊影響因子、H指數等。進一步關注引文相關指標在時間維度的動態分布規律,可揭示其被引模式、預測其未來影響力增長的可能性,從而更有效地評價相關對象的學術影響力。

目前,研究者基于文獻被引頻次的時間序列數據,對文獻被引的生命周期規律進行了總結。A.Avramescu[38]發現引文時間曲線的變化規律有5種類型:變化規律相近的3種經典曲線、“天才型”曲線以及“曇花一現”型曲線。在此基礎上,H.P.Van Dalen和K.Henkens[39]提出了“被遺忘”的論文以及“睡美人”論文。此后很多研究者基于引文時序曲線的特征來識別“睡美人”文獻,例如Ke等[40]通過測量論文的“美麗系數”來識別“睡美人”文獻的被引曲線。為了更好的理解引文模式的作用機制,Hu等[41]引入格蘭杰因果推理來研究下載和引用之間的方向性。

學術影響力預測主要對論文、學者、機構等對象的未來學術影響力指標進行預測,以期識別潛力學者、學科、期刊等。Bai等人[42]利用時間序列回歸模型預測了論文的未來被引頻次。Du等改進了LSTM模型以擬合論文被引頻次的分布和演變趨勢[43]。Xie等對機構發文數量的時間序列進行回歸分析以預測其未來影響力[44]。盡管研究者已設計各種指標來量化評估學術影響力,并基于利用時間序列方法對這些指標進行預測,但人們對學術影響力是如何產生和演變的仍知之甚少[45]。因此,融合復雜網絡分析和時間序列分析方法,對引文網絡的拓撲結構及其演化機制進行研究,也是目前學術影響力預測研究的一個重要方向[46]。

3 情報學研究中的時間序列分析過程

在情報學研究中,可用于時間序列分析的數據指標種類繁多,相應的分析方法尚未形成固定的過程環節。為此,本文按照時間序列分析方法的基本過程,依次從觀測數據選取、時間序列切片方式、時間序列形態規律挖掘、預測與評價四個環節,對情報學中的時間序列分析研究進行梳理,具體流程如圖2所示。

圖2 時間序列分析研究流程圖Fig.2 Flow Chart of Time Series Analysis Study in Information Science

3.1 時間序列觀測數據選取

時間序列分析的第一個步驟就是選取和處理觀測數據。情報學通常根據研究目標來選定構成時間序列的定量指標,例如文本的主題指標[47,49]、科學計量學相關指標等??傮w而言,這些觀測指標可分為單一性指標和綜合性指標兩種。單一性指標是從單一維度對數據進行描述,例如用論文數、引文數、關鍵詞頻次等指標描述研究主題的熱度;綜合性指標是綜合多方面因素構造數據指標,例如h指數、p指數等綜合論文的被引量和發文量來度量論文的影響力。表2列舉了不同情報分析任務中典型的時間序列觀測指標。

表2 情報學研究中典型時間序列觀測指標Table 2 Observation Indicators of Typical Time Series in Information Science Studies

3.2 時間序列切片方式

獲得時間序列基礎數據后,需要對其進行切片,即明確時間序列數據單元對應的時間窗口大小。切片方式有離散時間窗口和交叉時間窗口兩種,離散窗口是選取不重疊的獨立時間單元來對數據進行分段,目前這種切片方式比較普遍。交叉時間窗口切片中的時間序列單元則與前一單元有部分時間重疊。

離散時間窗口往往按自然時間粒度劃分,如年、月、日。與計量經濟中常用的以日為單元不同,情報學研究的時間窗口粒度相對較大,例如對詞語、引文分析往往是以年為單元。在對主題、輿情的分析中,時間窗口往往是多個自然時間粒度的組合。主題分析以若干年為一觀測階段,輿情分析則以若干天為一觀測階段。在實際分析中,為了便于歸納主題或輿情變化的整體趨勢,比較不同階段的特點,研究者往往采用等長[66]或不等長的方式對“年”或“天”的時間序列進行劃分,通常分割為3-5段。等長[66]的劃分方法操作簡單,但是在整個時間序列中,有規律的時間序列模式長度不定,因此等長劃分方式不利于后續的規律發現。為了降低等長劃分方式的主觀性影響,有學者根據時間序列曲線的階段性規律來劃分時間片段,典型的是結合生命周期理論或者根據曲線拐點來切分時間序列窗口。朱光等[67]基于文獻增長理論,將文獻數量時間序列劃分為初步探索期(2005-2007年)、穩定發展期(2008-2017年)和快速增長期(2018-2020年)3個不等長區間。

使用交叉窗口的時間序列的優點,是可以利用相鄰時間窗口的重疊更好地捕捉數據背后事物演變的連續性,以避免連續過程被獨立切片操作打散。具體操作上,有的學者主觀地選擇時間窗口的重合區間,例如Henry Small[68]直接將數據集切分為三個重疊時間窗,分別為1996-2001年,1997-2002年和1998-2003年。也有學者利用滑動窗口的方法,按指定長度的時間窗口持續向后平移構成時間片,以比較各窗口內的統計指標。例如,Lu等[69]通過滑動窗口和切片相結合的方式,設計了一個步長固定為3的滑動窗口來預測關鍵詞的增長頻次。

3.3 時間序列形態規律挖掘

時間序列分析的最終目標是從原始或轉換后的時間序列數據中發現蘊含的規律。本節主要討論利用生命周期理論或時序聚類方法對時間序列模式進行分析的相關研究。除此以外,有大量關于時間序列曲線擬合的情報學研究,因其主要目標是開展預測,故而歸入3.4節討論。

時間序列形態規律的一個重要方面是其表征事物的演化過程規律,即其典型階段與各階段延續方式。情報學研究中對時序演化規律的分析通常依托生命周期理論,即將研究對象(如研究主題、技術發展)的全時序過程劃分為因果關聯、前后相繼的各個階段,典型的生命周期狀態可分為新生、成長、成熟、收縮和消亡五個階段。例如,在學科主題演化分析中,Wu等[70]根據生命周期理論將主題劃分為萌芽期、緩慢增長期以及快速增長期。在網絡輿情演化分析中,馬曉悅等[71]將突發公共衛生事件社交媒體信息的生命周期劃分為潛伏期、爆發期、衰退期、穩定期。在專利演化分析中,Cong等[72]將產品的技術發展周期劃分為嬰兒期、成長期、成熟期、衰退期。馬建紅等人[73]發現產品技術主題的語義信息會隨著其生命周期的發展而逐漸豐富,詞匯從獨立轉向組合演變從而形成主題的分化和融合。

此外,還可以通過對演化趨勢相似的時間序列進行聚類,根據其共性變化特征來識別時間序列的不同模式。常用的聚類依據是通過基于距離表示的時間序列相似度。在主題演化方面,李海林等[74]利用DTW算法計算了研究主題流行度時間序列的相似度,再用AP聚類算法聚合具有相似發展趨勢的主題簇。在引文分析方面,黃思雨等[75]對期刊篇均引用值時間序列進行聚類,根據其變化趨勢探索參考文獻與引證文獻兩種來源期刊間隱含的相關關系。

3.4 時間序列的預測與評價

時間序列的預測需要將時間序列劃分為兩個序列,一個用于構建擬合模型,一個用于測試擬合模型的質量。然后根據數據特征選擇預測模型用于預測,再評估模型的準確性。

時序預測的方法分為統計學的方法和機器學習的方法。統計回歸方法包括線性回歸、ARIMA、VAR(Vector Autoregressive)多元時間序列等模型。例如,陳娟等采用ARIMA模型擬合了能夠代表用戶價值的人均滿意程度演變曲線[76],S Bjork等通過創新擴散的Bass模型分析了諾貝爾經濟學獎獲得者的引用軌跡[55]。Xie等運用VAR多元時間序列模型預測了來年預計錄用的會議論文數量[44]。機器學習方法強調在特征輔助下對時間序列進行預測,包括BP神經網絡模型、LSTM模型等方法。例如,Zhang等[77]通過LSTM模型預測了未來COVID-19病例數量。研究表明,用于時間序列預測的機器學習算法的效果經常優于統計模型[78]。

預測結果的評價至關重要,因為不同的模型盡管可能具有相似的特征,但會產生截然不同的預測值。一般而言,預測的精度越高,表明模型的效果越好。研究時可以通過比較不同的模型擬合效果來選擇最優方案。例如,許海云等[79]使用ARIMA、LSTM以及Prophet三種模型進行趨勢預測,通過計算RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、R2Score值衡量了觀測值與真實值之間的誤差,最終發現Prophet模型的預測精度最高。

4 情報學研究中時間序列分析的問題

本文梳理了情報學研究中有關時間序列分析的任務場景和處理流程,盡管當前研究已取得了一定進展,但仍面臨諸多問題。

4.1 對時間序列模式的挖掘研究不足

當前情報學研究中的時間序列分析多側重計量指標的趨勢分析,較少利用時間序列模式識別和特征挖掘來揭示研究對象的發展過程、規律、動因及態勢等。情報分析與預測一直是情報學研究中的核心工作,可相關研究中的預測方法與工具較少。相關研究或是識別學科在上升、平穩或下降等方向的趨勢[7],或是回歸擬合未來某一時間段里的預測值[80],對學科發展過程和動態變化規律的研究還不足,并沒有進一步歸納總結學科興起、衰退等狀態轉移的共性規律和基本模式。時間序列分析研究中引入數理模型并非刻意抬高或復雜化研究問題,而是為了避免人工解讀的主觀性影響,提升情報分析的科學性和精確性[5]。因此,在未來情報學研究中,應提高對時間序列數理模型、特征變換與分解、相似性度量、分類聚類等方面的重視,運用定量方法以更客觀地解決時間序列分析問題,以將相關研究推進到更深入的規律總結、模式發現層面。

4.2 缺乏針對短時間序列分析的研究優化

情報學研究中,時間序列分析對象以短序列為主,原因是數據的時序記錄點相對較少,各時序點數據的特征維度也低。例如,在論文[49]、專利[33]數據中,往往按照年為時間粒度提取文獻的關鍵詞、摘要或者引文等信息,而在觀測輿情事件時,則以若干天為一觀察階段。如趙磊等[23]以14天為一滾動周期,將輿情數據分為21組?,F有的時間序列分析方法和理論大多側重于長時間序列分析,不能很好地適應短時間序列數據分析。例如,ARIMA模型想要取得較好的預測效果,通常需要至少50個觀測值。如果數據量少或數據不完整,短時間序列分析的結果也不可靠。如何優化這些原本應用于長時間序列分析的挖掘方法,以處理科技情報分析普遍存在的短時間序列,是未來需要重點關注的問題。目前,已有學者提出了一些短時間序列分析方法。例如,Martin等[81]提出基于分數布朗運動的赫斯特指數估計方法,適用于長度大于10且滿足分段獨立性的短時間序列。在未來的研究中,應多關注短時間序列分析和挖掘方法,例如利用分組時間序列[82]解決單條序列數據較短而分組數較多的問題。

4.3 對研究結果的評估較為欠缺

情報學研究中時間序列分析還存在結果評估不足的問題。很多研究僅僅通過時間序列模型擬合曲線,而沒有進一步評估擬合預測結果的準確性,這在一定程度上無法確保結果的可靠性。實際上,在情報學諸多研究場景中,時間序列分析是最有條件開展量化評估的。針對不同的時間序列模型,在進行曲線擬合及趨勢預測時,可以通過均方根誤差、平均絕對值誤差[79]等指標來計算觀測值與真實值之間的差距,評價趨勢預測結果的好壞。因此,如何借助情報學研究的預測性導向,形成一套可用的時間序列分析結果評估方法,仍有待于進一步研究。

作者貢獻說明

陳果:提出論文思路,設計框架,修改定稿;

王凱月:文獻調研,初稿撰寫。

猜你喜歡
情報學輿情預測
開放與融合:公安情報學進入情報學方式研究*
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
構建中國特色的情報學
不必預測未來,只需把握現在
輿情
輿情
輿情
數據挖掘技術在情報學領域的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合