?

基于任務隊列的新聞報道模型

2016-10-14 02:04尤志強朱燕燕韓筱璞呂琳媛
電子科技大學學報 2016年2期
關鍵詞:冪律隊列間隔

尤志強,朱燕燕,韓筱璞,呂琳媛

?

基于任務隊列的新聞報道模型

尤志強,朱燕燕,韓筱璞,呂琳媛

(杭州師范大學阿里巴巴復雜性科學研究中心 杭州 311121)

基于新浪新聞數據,對熱點新聞的連續發表事件時間間隔序列進行了統計分析,以探究新聞內容的選擇機制。實證發現該時間間隔分布在個類與總體層面上都遵循帶指數截斷的冪律分布,由此提出一種考慮時效性的,并基于嚴格優先及偏好優先選擇混合機制的隊列模型來揭示新聞選擇背后的機制。該模型的數值模擬結果與實證統計數據較好地吻合,表明該模型規則在一定程度上可用于解釋新聞報道中出現的非泊松時間特性。

爆發性; 新聞選擇; 冪律分布; 任務隊列模型; 時間間隔分布

信息傳播目前是學術界炙手可熱的研究領域。學者對不同網絡上的信息傳播及動力學進行了大量的研究[1-5],有助于人們理解信息擴散的機制及對輿論控制的研究。然而,對于信息內容的產生機制的研究卻鮮有報道。目前學界關注的重點集中在社交網絡層面,如謠言傳播[6-7]、創新擴散[8]、人類行為對傳播的影響[9-10]等,而對新聞這類主流信息傳播主體的研究十分缺乏,特別是針對新聞內容產生機制的研究更是難覓蹤跡。文獻[11]雖關注的是新聞,不過其研究的是新聞的密集報道產生的影響力。新聞媒體在現代信息傳播中扮演著重要的角色。至今,人們對于各類新聞的發表規律知之甚少。因此,對新聞內容產生機制的研究,將有助于更好地理解新聞的性質特點以及加深對信息傳播的理解。

新聞,顧名思義,是一種新近發生的事件,通常人們會認為新聞的選擇是基于時間及重要性的絕對優先原則,那是否意味著只有最新最重要的事件才會被報道,或存在其他的新聞產生機制?目前,針對新聞的相關性質特點的研究主要集中在社會科學領域,但隨著網絡科學在復雜系統中的應用日趨成熟,使用復雜網絡領域知識來研究新聞的選擇機制值得嘗試。當前復雜網絡研究在包括人類任務處理[12]、地理活動[13-15]、郵件[16-17]、短信[18]、通話[19]等方面都取得了相當豐碩的成果。文獻[17]通過研究用戶從接收信件到回復信件之間的間隔反應時間序列發現該反應時間間隔分布存在冪律現象。文獻[18]通過研究用戶連續進行短信發送事件的時間間隔序列,發現在個體用戶層面的連續事件時間間隔分布遵循冪律分布。受此類研究方法的啟發,本文從時間統計特性的角度對新聞數據進行研究,分析新聞選擇的潛在機制。

本文使用新聞標題表征新聞類別,如“暴雨”表示一類新聞。根據新聞的發表時間信息可以刻畫出每一類新聞的連續發表事件時間間隔序列,該時間間隔表示同類新聞連續兩次發表之間的時間差,實證分析發現新聞的連續發表事件時間間隔分布在個類層面和總體層面上都呈現為帶指數截斷的冪律分布?;谠搶嵶C發現,本文提出一種考慮時效性的混合機制隊列模型來研究新聞選擇機制的動力學過程,模型所得結果與實際數據較好地吻合,表明對新聞內容的選擇在新聞時間統計特性產生中可能起了重要作用。

1 數 據

新浪新聞是中國重要的新聞內容提供方,內容涵蓋了社會、體育、娛樂、財經等領域。本文采用了新浪新聞2012年1月1日—2012年12月31日的新聞數據[20]。該新聞數據以季度劃分,每個季度為一個文件,共包含25萬條新聞,約2.5億字。每條新聞包含以下內容:新聞的URL、使用的字符編碼、標題、關鍵字、描述、報道媒體以及新聞內容等,格式為XML。另外,新聞URL信息中包含了每一條新聞發布的具體時間信息,精確到分鐘。

標題是對具體內容的高度濃縮,對標題的提取,可以便捷地得到新聞的主題內容信息。因此,本文重點對標題進行了提取和統計分析。為了驗證使用標題的合理性,需要確保標題的詞頻與新聞文本內容詞頻具有相似的分布。本文使用中文分詞工具盤古分詞軟件[21]對新聞標題及文本內容進行分詞。為了排除虛詞的影響,本文過濾掉長度小于2的詞語,分別對內容以及標題的詞頻進行統計。圖1a表示新聞內容分詞詞頻概率分布,圖1b表示新聞標題分詞詞頻概率分布,可以看到兩者具有相似的冪律分布特性。此外,針對標題文本的分詞,選取長度不小于2且詞頻數不少于500的作為后面研究分析的對象。限制詞頻數不小于500,是為了確??梢缘玫阶銐蜷L的同類新聞連續發表事件時間間隔序列以利于分析相關性質。通過以上數據預處理,得到新聞 331個,每個 表征了一類新聞。

2 統計分析

本文以分鐘為基本時間單位,對所有熱點新聞分別提取其相應的新聞發表事件的時間數據,并依此得到每一類熱點新聞的每連續兩次發表事件的時間間隔序列,該時間間隔使用表示,并進一步對熱點新聞在個類及總體層面(即綜合所有新聞類別)上統計了新聞連續發表事件的時間間隔分布。圖2展示了其中的4類高頻熱點新聞的時間間隔分布(其余熱點新聞均表現出相似分布特征),這4個關鍵詞分別為暴雨、爆炸、官員、槍擊,其中空心圓表示實際數據的分布,實心三角形表示logarithmic binning處理后的結果。從圖2可以看到同類新聞連續發表事件的時間間隔分布具有帶指數截斷的冪律分布特性,如表1所示,本文使用帶指數截斷的冪律分布函數=-Be-Cx對分布做了擬合,即同類新聞會在短時間內頻繁發布,而較少出現長時間靜默的情形。此外,不同類別的新聞雖然總體趨勢相似,但指數截斷強度存在差別,表明不同新聞在長時間靜默表現上具有不同的傾向,如“暴雨”,指數截斷現象較弱,尾部分布近似于冪律,而爆炸、官員、槍擊等新聞則表現出較強的指數截斷,表明這些類別新聞更偏好于短時間的集中發布。

圖2 單個新聞的發表時間間隔分布

表1 新聞熱詞連續發表事件時間間隔分布擬合結果

為了更好理解該現象,本文分別畫出了這4個詞的活躍性分布圖,以天為單位,一天內該新聞發表的次數為活躍性,如圖3所示,可以看到“暴雨”在6、7月份異?;钴S,短時間內發表非常頻繁,而其他時候基本處于長時間靜默,導致其指數尾不明顯?!皹寭簟被钴S性分布呈現出明顯的周期性,在80、200、350天左右呈現高頻爆發,而其他時間相對靜默,導致其指數尾也較弱。然而相對暴雨和槍擊,爆炸和官員新聞則沒有表現出明顯的陣發現象,呈現出一定的隨機性,導致產生較明顯的指數尾。

單個新聞每天的活躍性變化

3 模 型

新聞工作者從候選新聞素材中選擇正式發表的新聞內容與人們處理任務隊列中任務的行為相似,因此,在文獻[12]提出的反映人類行為的隊列模型基礎上,本文提出了一種考慮時效性的混合機制隊列模型。該模型的核心機制主要考慮了如下3點:1) 絕對優先機制。該機制嚴格依據新聞的重要性從新聞素材候選隊列中選擇重要性權重最大的新聞,該機制強調新聞本身的重要性;2) 偏好優先機制。按照新聞的重要性權重成比例地從新聞隊列中隨機選擇新聞,權重值大的新聞更有可能被選中,但權重小的新聞依然有機會被選擇;3) 新聞信息冗余和強時效性,即可供發布的新聞遠遠多于能夠發布的新聞,而且選擇的新聞一般為近期的新聞素材,未能及時發布的新聞隨時間推移迅速喪失其意義。

考慮上述因素后,該模型首先定義個類別新聞,每一類新聞賦予固定的權重值以表征其重要程度,在0~1之間隨機選取。固定新聞的權重值,是因為各個類別的新聞的重要程度不會出現較大波動,如“槍擊”“總統”等類別新聞重要程度一直很高。模型更新規則如下:

1) 在=0時刻,初始化長度為的新聞列表,該列表可視為新聞的備選庫。這條新聞的類別是從種類別中隨機選擇。由于各個新聞類別的重要性值已經固定,因此選入隊列的新聞的值也由其類別確定。

2) 進行新聞選擇過程,如圖5所示。圖5a表示有5條新聞的待選隊列,圓圈表示新聞,圓圈大小正比于新聞的重要性,灰度深淺用以區分新聞類別。模型以概率使用絕對優先機制選擇新聞,即直接選取隊列中最大的發表,如圖5b示;或者以概率1–按照偏好優先機制進行新聞選擇,即某新聞被發表的概率Ω=ω/,如圖5c所示。

3) 選擇完成后,從隊列中刪除被選中的新聞,并往隊列中添加一條新的新聞,這條新的新聞的類別也是從類新聞中隨機選擇。

4) 如果超過了/20時步,一條新聞還沒被選過,那么就從候選列表中將它刪除,并從類新聞中隨機選擇一條新聞添加到新聞候選列表。選擇/20,是考慮到新聞的時效性,新聞在/20時步后仍未被發布則視為失去發布意義。

在模擬過程中,迭代時間總步數設置為366× 24×60步,即模擬2012年全年的分鐘數。待完成迭代,提取同類新聞連續發表事件的時間間隔序列,并綜合所有新聞類別,統計總體水平上該連續事件時間間隔分布。

4 結果與分析

此外,本文進一步探究了模型中各參數對結果的影響,如圖6所示。圖6a展示了新聞類別數量對結果的影響,固定=200,=0.22,分別選取在200、600、1 000時模型的結果進行比較??梢钥吹诫S著的增加,新聞連續發表事件時間間隔分布在小于300的區間出現下降趨勢,300~500為過渡區間,大于500區間,隨著的增加,分布出現右移趨勢。圖6b顯示了新聞候選列表長度對結果的影響,參數固定=600,=0.22,分別選取為100、200、300、400進行實驗??梢钥吹诫S著的增大,分布只在為[1,10]區間部分發生較明顯變化,越大,該部分分布抬升越顯著,而尾部變化不明顯。圖6c展示機制選擇概率對結果的影響,固定=600,=200,分別選取=0.1、0.2、0.3時的模型結果進行研究??梢钥吹?,只對模型分布結果在為[1,100]區間產生影響,值越大,分布抬升越明顯。

圖6顯示了隨著的增大,可被挑選到新聞候選列表中的新聞種類變多。由于模型規則規定在補充候選新聞列表時采用隨機從類新聞中抽取的方式,客觀上導致每一類新聞被抽到的概率變小,進而造成候選列表中存在同類新聞的可能性降低,最終使得同類新聞短時間內被重復選擇的機率降低。在總體層面上,新聞連續發表時間間隔及其比例都表現出變大的趨勢。而候選列表長度的變大,使得候選列表中同類新聞的存在可能性增加,提高了同類新聞短時間內被多次發表的概率,不過受此影響最大的應該是具有較高權重值的新聞,因為模型偏好高權重值的新聞發表,因此可以看到較小的比值有所增加但幅度較弱,長度對結果的影響沒有新聞種類變化帶來的影響大。另外,選擇概率是控制偏好選擇的比例,偏好選擇比重增加,導致更多的具有較高權重值的同類新聞被選擇的概率增大,但對于低權重值的新聞的影響不大。

從結果分析來看,高權重新聞的連續發表時間間隔易受到規則參數的影響,而低權重新聞對于參數、的變化不敏感,但會受到新聞種類的明顯作用。

5 結 束 語

本文通過實證統計分析發現,熱點新聞連續發表事件時間間隔分布在個類及總體層面上呈現帶指數截斷的冪律分布現象。為了揭示新聞選擇背后的規律,本文提出了考慮時效性并基于嚴格優先及偏好優先混合機制的隊列模型。通過數值模擬,該模型結果顯示了豐富的非泊松時間間隔特性,可以得到與實際數據在總體層面上新聞連續發表事件時間間隔分布較一致的結果。

需要注意的是,模型實際上假設了各個類別新聞的出現間隔是均質的,但是對新聞的選擇使得發布的新聞的時間間隔出現了爆發性。這一機制揭示出這種人為選擇的影響在新聞統計特性中扮演著重要角色,這對于理解各類媒體的行為特性有著重要的意義。該研究成果有助于深入理解新聞背后的選擇機制,同時該工作能夠被拓展到其他媒體的內容選擇規則的研究上,如雜志、電影等,這將為進一步理解人類行為及信息傳播提供契機。

本文的研究工作得到杭州師范大學科研啟動經費項目(2015QDL005)的資助,在此表示感謝。

[1] Lü L, CHEN D B, ZHOU T. The small world yields the most effective information spreading[J]. New Journal of Physics, 2011, 13(12): 123005.

[2] YANG J, COUNTS S. Predicting the speed, scale, and range of information diffusion in twitter[J]. ICWSM, 2010(10): 355-358.

[3] IRIBARREN J L, MORO E. Impact of human activity patterns on the dynamics of information diffusion[J]. Physical Review Letters, 2009, 103(3): 038702.

[4] DUTTA C, PANDURANGAN G, RAJARAMAN R, et al. Information spreading in dynamic networks[EB/OL]. (2011-12-02). http://arXiv.org/abs/1112.0384.

[5] IRIBARREN J L, MORO E. Branching dynamics of viral information spreading[J]. Physical Review E, 2011, 84(4): 046116.

[6] DOERR B, FOUZ M, FRIEDRICH T. Why rumors spread so quickly in social networks[J]. Communications of the ACM, 2012, 55(6): 70-75.

[7] LIND P G, DA SILVA L R, ANDRADE J J S, et al. Spreading gossip in social networks[J]. Physical Review E, 2007, 76(3): 036117.

[8] MONTANARI A, SABERI A. The spread of innovations in social networks[J]. Proceedings of the National Academy of Sciences, 2010, 107(47): 20196-20201.

[9] MIRITELLO G, MORO E, LARA R. Dynamical strength of social ties in information spreading[J]. Physical Review E, 2011, 83(4): 045102.

[10] PFITZNER R, GARAS A, SCHWEITZER F. Emotional divergence influences information spreading in twitter[J]. ICWSM, 2012(12): 2-5.

[11] CHEN Y Y, CHEN F, GUNNELL D, et al. The impact of media reporting on the emergence of charcoal burning suicide in Taiwan[J]. PloS One, 2013, 8(1): e55000.

[12] BARABáSI A L. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005, 435(7039): 207-211.

[13] GONZALEZ M C, HIDALGO C A, BARABASI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779-782.

[14] SONG C, QU Z, BLUMM N, et al. Limits of predictability in human mobility[J]. Science, 2010, 327(5968): 1018-1021.

[15] BROCKMANN D, HUFNAGEL L, GEISEL T. The scaling laws of human travel[J]. Nature, 2006, 439(7075): 462-465.

[16] MALMGREN R D, STOUFFER D B, MOTTER A E, et al. A Poissonian explanation for heavy tails in e-mail communication[J]. Proceedings of the National Academy of Sciences, 2008, 105(47): 18153-18158.

[17] OLIVEIRA J G, BARABáSI A L. Human dynamics: Darwin and Einstein correspondence patterns[J]. Nature, 2005, 437(7063): 1251-1251.

[18] HONG W, HAN X P, ZHOU T, et al. Heavy-tailed statistics in short-message communication[J]. Chinese Physics Letters, 2009, 26(2): 028902.

[19] CANDIA J, GONZáLEZ M C, WANG P, et al. Uncovering individual and collective human dynamics from mobile phone records[J]. Journal of Physics A: Mathematical and Theoretical, 2008, 41(22): 224015.

[20] 張開旭. 2012年新浪新聞語料[DB/OL]. [2013-01-10]. http://pan.baidu.com/s/1pJqrfPh.

ZHANG Kai-xu. The news corpus of Sina.com in 2012. [DB/OL].[2013-1-10]. http://pan.baidu.com/s/1pJqrfPh.

[21] EAGLET. Pan Gu Segment[EB/OL]. [2010-08-18]. http://pangusegment.codeplex.com.

編 輯 蔣 曉

Queuing Model for News Reports

YOU Zhi-qiang, ZHU Yan-yan, HAN Xiao-pu, and Lü Lin-yuan

(Alibaba Research Center for Complexity Sciences, Hangzhou Normal University Hangzhou 311121)

In this paper, based on the news data of Sina website, inter-event time interval sequences of hot news publication are analyzed to reveal the hidden rules of news selection. Empirical analysis shows that the distributions of the inter-event time intervals between two consecutive news with common keywords follow power-law-like distribution with exponential cutoff both on individual level and aggregated level. Focusing on this finding, we propose a timeliness-based queuing model with mixed mechanisms of strict and preferential priority selections to reveal the hidden principle of news selection. The model results are generally in agreement with the empirical findings, indicating that the proposed model can explain the emergence of non-Poisson properties in news reports.

burstness; news selection; power-law distribution; queuing model; time interval distribution

N94

A

10.3969/j.issn.1001-0548.2016.03.023

2014 - 11 - 10;

2015 - 03- 24

猜你喜歡
冪律隊列間隔
間隔問題
隊列里的小秘密
大數據時代下冪律分布在醫學領域中的應用價值
基于多隊列切換的SDN擁塞控制*
間隔之謎
基于冪律分布的房地產泡沫破裂風險預警研究
在隊列里
豐田加速駛入自動駕駛隊列
冪律流底泥的質量輸移和流場
在熱愛的事情上冒險
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合