?

2017年中國內地電影復雜網絡建模與分析

2020-05-25 02:30劉亞云艾均蘇湛
軟件導刊 2020年2期
關鍵詞:復雜網絡電影票房

劉亞云 艾均 蘇湛

摘 要:復雜網絡理論可用于分析各領域的復雜系統。針對中國內地電影的復雜關系,設計網絡建模算法,依據2017年票房榜排名前200的電影信息,以數據集中的實體為節點、實體之間的關系為邊,構建復雜網絡模型,基于該模型對2017年度中國內地電影復雜網絡進行分析。結果表明,高產演員對票房無明顯影響;介數中心性和特征向量中心性均小于特定值時,電影票房失敗的概率較高;介數中心性和特征向量中心性分布在特定區域之內時,電影獲得高票房的概率高達73%。建模實驗與基于模型的分析證明了2017年中國內地電影復雜網絡建模的有效性,揭示了電影票房和電影復雜網絡中節點中心性之間的相關性。

關鍵詞:復雜網絡;電影票房;度值中心性;介數中心性;特征向量中心性

DOI:10. 11907/rjdk. 191629 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP303文獻標識碼:A 文章編號:1672-7800(2020)002-0027-08

英標:Complex Network Modeling and Analysis of Chinese Mainland Films in 2017

英作:LIU Ya-yun, AI Jun, SU Zhan

英單:(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology, Shanghai 200093,China)

Abstract: Complex network theory can be used to analyze complex systems in various fields. Aiming at the complex relationship between Chinese mainland movies, the network modeling algorithm was designed. Based on the top 200 movies in the 2017 box office list, the complex network model was constructed by taking the entities in the data set as nodes and the relationship between entities as edges. Based on this model, the 2017 complex network of Chinese mainland films was analyzed. The analysis found that productive actors have no significant influence on the box office; when the betweenness centrality and the eigenvector centrality are less than a certain value, the probability of a failure box office is higher; when the betweenness centrality and the eigenvector centrality are distributed within a specific area, the probability of a movie getting a high box office is as high as 73%. Experiments and analysis proved the effectiveness of the complex network modeling of Chinese movie in 2017, revealing the correlation between the centrality of the box office and the complex network of movies.

Key Words: complex networks; box office; degree centrality; betweenness centrality; eigenvector centrality

0 引言

現實生活中,許多復雜系統都可以建模成各種復雜網絡進行分析。通常而言,復雜網絡由許多個節點和連接兩節點的連邊組成,節點代表現實生活中的個體,而連邊則用來表示個體之間的關系。有邊相連的兩個節點在網絡中被看作是相鄰的。例如,神經系統可以看作是大量神經細胞通過神經纖維相互連接形成的網絡[1];計算機網絡可以看作是自主工作的計算機通過通信介質如光纜、雙絞線、同軸電纜等相互連接形成的網[2]。 類似的還有電力網絡、社會關系網絡、交通網絡等[3-5]。

數學家和物理學家在考慮網絡時,往往只關心節點之間有沒有邊相連,至于節點位置、邊的長短與曲直、是否相交等特性都不在考慮范圍內。網絡不依賴于節點的具體位置和邊的具體形態就能表現出來的性質為網絡拓撲性質,相應結構為網絡拓撲結構。能描述真實世界的拓撲結構系統研究,大致經歷了3個階段:第一階段,人們認為真實系統各因素之間的關系可以用一些規則結構表示,例如二維平面上的歐幾里德格網、最近鄰環網;第二階段,提出了一種新的網絡構造方法,在這種方法下,兩個節點之間連邊與否不再是確定的事情,而是根據一個概率決定,這樣生成的網絡為隨機網絡,隨機網絡在很長一段時期里被認為是描述真實系統最適宜的網絡[6-8];直到最近幾年,由于計算機數據處理和運算能力的飛速發展,人們發現大量真實網絡既不是規則網絡,也不是隨機網絡,而是與前兩者皆不同的具有統計特征的網絡,這樣的網絡被稱為復雜網絡(Complex Network)[9-10]。1998年,Watts & Strogatz[1]提出小世界網絡概念;1999 年, Barabá? & Albert[11] 發現無標度網絡特性,突破了單純規則網絡和隨機網絡模型的束縛,揭示了復雜網絡結構所包含的各類動力學特性與結構特征之間的聯系,奠定了在實際網絡中應用研究的基礎[12]。

當前,復雜網絡用于研究各種類型的網絡和網絡特征,成為一大研究熱點。它與現實中各類復雜性系統研究有密切關系,比如,由一些個體和個體之間互相連接而組成的社會關系網絡系統、由很多神經細胞通過神經纖維互相連接組成的神經網絡系統[13],以及電力網絡系統、交通網絡系統、生態系統網絡系統和新陳代謝網絡系統[13-14]等。陳培文等[15]將復雜網絡與公共交通系統相結合,系統性分析了北京地鐵早高峰客流現狀,針對地鐵網絡運營提出了建議;張正帥等[16]從復雜網絡的角度描述地震活動時空復雜性特征,為分析研究地震發生規律提供了一種新的途徑;傅杰等[17]又從復雜網絡理論角度出發,提出了一種基于網絡凝聚度的電力網絡關鍵線路評價方法。復雜網絡是對現實生活中事物間關系的抽象表示,對復雜網絡的研究可以幫助人們發掘事物間的深層聯系,并針對特定問題提出新的解決方案。

電影是集藝術、經濟和科學于一體的市場產物,近年來隨著民眾文化消費需求的提升以及影院和銀幕數量的高速增長,我國電影行業呈現持續繁榮景象[18]。中國電影產業經歷了突飛猛進的發展,并保持穩定增長的良好態勢,但也出現了一些不容忽視的問題,比如:高產演員參演的影片是否一定會大賣,在社交網絡中占據重要地位的制作機構參與制作的電影是否一定會取得高票房。目前,各界人士已經從傳播學、經濟學等角度分析電影票房影響因素,并從不同角度得出與電影票房相關的一系列理論。文獻[19]通過對中國大陸地區2012-2016年期間上映電影數據進行相關性分析和回歸分析,對中國大陸地區電影票房影響因素進行實證研究;文獻[20]通過建立票房與明星效應之間的回歸模型,對明星效應與中國電影票房進行了實證研究;文獻[21]結合反饋神經網絡與中國內地電影市場的實際情況,提出一種基于多層反饋神經網絡的票房預測模型。

復雜網絡是當前一大研究熱點,但是將其應用于電影方面卻鮮有涉及。本文基于復雜網絡知識,針對中國內地電影的復雜關系,通過復雜網絡與電影相結合,將復雜網絡的研究理論系統化,設計網絡建模算法。依據2017年票房榜排名前200的電影信息,以數據集中的實體為節點、實體之間的關系為邊,構建復雜網絡模型,并基于該模型對2017年度中國內地電影復雜網絡進行系統研究分析,主要探究以下幾個問題:高產演員參演的電影是否一定會大賣?高票房電影在復雜網絡中有什么特征?高影響力的制作機構是否一定會帶來高票房?通過建模實驗與基于模型的分析,揭示電影票房和電影復雜網絡中節點中心性之間的相關性,拓寬電影票房研究的新視角。

1 2017年中國內地電影復雜網絡建模

1.1 復雜網絡建模算法設計與實現

本文數據來源于國內主要電影媒體網站,如藝恩電影智庫、時光網等。研究樣本為2017年中國內地電影票房排行榜前220的電影,涉及電影名稱、票房、上映時間、導演、編劇、制片人 、演員及制作機構。首先對數據進行預處理,刪除不符合數據要求及信息不完整的20部電影,剩余200部。有導演221個,編劇337個,制片人321個,演員756個,制作機構565個,各類別統計數據占比如圖1所示。

將數據關系抽象處理成復雜網絡圖,進行可視化分析,具體數據轉化算法如圖2所示。該算法主要提取兩列數據:電影名稱、參與電影制作的演職人員及制作機構。根據提取的數據,繪制復雜網絡圖。復雜網絡圖由節點和邊構成。節點數據包括節點值和權重,邊數據包括出度、入度及權重。在本文研究中,用無權無向圖,不對節點進行屬性區分。原來的數據集中,只能通過表格信息了解電影基本信息,例如票房、演職人員與相關制作機構等,無法探究電影票房、演職人員與制作機構等之間的關系。但是,將電影相關的數據關系抽象為復雜網絡圖,更便于分析票房與電影、制作機構以及演職人員之間的深層關系。

1.2 建模規則

本文對2017年中國內地電影信息進行搜集整理,包括電影名稱、票房、上映時間、導演、編劇、制作人及制作機構。根據如下規則,建立復雜網絡模型。

規則一:演員是參演電影的直接主體,與電影票房有著直接聯系。按照演員與電影之間的聯系,如果演員參演電影,便認為有關系,分別以電影和演員為節點、電影與演員之間的關系為邊,建立電影—演員復雜網絡。

規則二:以導演、編劇、制片人、演員和制作機構為節點,只要人物與人物、人物與制作機構、制作機構與制作機構參與同一部電影制作,便認為有關系,并建立連邊,建立導演—編劇—制片人—演員—制作機構復雜網絡。

規則三:電影票房規律不僅與參演演員有關,還與導演、編劇、制片人、制作機構有著密切聯系。這些元素以電影為中介產生聯系,分別以電影、導演、編劇、制片人、演員、制作機構為節點,電影與人物、電影與制作機構之間的關系為邊,建立以電影為中心節點的電影—導演—編劇—制片人—演員—制作機構復雜網絡。

通過以上3種規則分別建立了3種復雜網絡,進一步探究哪種形式更適合對2017年中國內地電影票房規律進行分析。電影與演員構成的復雜網絡如圖3所示(其中,深藍色節點為電影節點,粉紅色節點為人物節點),不同大小表示不同度值;導演、編劇、制片人、演員以及制作機構構成的無電影復雜網絡如圖4所示(其中,粉紅色節點為人物節點,淺藍色節點為制作機構節點,不同大小表示不同度值);電影、導演、編劇、制片人、演員以及制作機構構成的有電影復雜網絡如圖5所示(其中,深藍色節點為電影節點,粉紅色節點為人物節點,淺藍色節點為制作機構節點,不同大小表示不同度值)。算法生成之后的3種復雜網絡的具體結構屬性如表1所示,其中,規則一是以電影、演員為節點,彼此之間聯系為邊建立的復雜網絡;規則二是以導演、編劇、制片人、演員,制作機構為節點,彼此之間聯系為邊建立的復雜網絡;規則三是以電影、導演、編劇、制片人、演員,制作機構為節點,彼此之間聯系為邊建立的復雜網絡。通過算法生成網絡時,如果同一演職人員具有多重身份,按一個節點進行處理。由表1可以看出,按照不同規則建立的復雜網絡結構屬性差異較大。按照規則一建立的復雜網絡,節點數僅為957個,社團個數卻有90個,社團規模較小,整個復雜網絡的節點分布比較分散。各節點間的平均路徑也比較長,相連兩個節點平均需要12.86步。按照規則二建立的復雜網絡,節點數為2 023個,節點之間的連邊有13 998條,在此規則下建立的復雜網絡無電影節點,只要人物與制作機構參與同一部電影制作,便認為有關系,這樣通過電影有間接聯系的人物與制作機構節點間便有了直接聯系,強化了節點間的連接,造成復雜網絡中節點度過大、不同類型節點之間的連邊存在大量冗余,使得節點間的區分度降低。按照規則三加入電影節點,建立的復雜網絡也是規則二中5類節點與電影之間的不同二部圖關系投影所得,其中,節點數為2 223,節點間連邊為2 429條,模塊度為0.895,社團結構特性相較于規則二更為明顯。

1.3 2017年中國內地電影復雜網絡模型構建

分析發現,不同規則建立的復雜網絡結構屬性差異較大。規則一所建復雜網絡模型節點少、社團規模較小、節點分布較分散,且只將電影票房與演員聯系在一起,忽略了其它因素影響;規則二所建復雜網絡模型,連邊之間存在大量冗余,整個網絡平均度值較大;規則三的社團結構特性相較于規則二更為明顯,并且加入電影節點構建復雜網絡,在分析電影票房規律時更為直觀。因此,本文最后選擇規則三建立包含電影節點的電影—導演—編劇—制片人—演員—制作機構復雜網絡。在該網絡中,將導演、編劇、制作人、演員和制作機構統一抽象為一類節點,沒有進一步對其屬性進行區分。如果演員出演電影,演職人員和制作機構參與電影制作,就被認為與電影有關。以電影、演職人員以及制作機構為節點,各節點間的關系連接為邊建立無向復雜網絡,即2017年中國內地電影復雜網絡。

2 2017年中國內地電影復雜網絡分析

2.1 節點中心性分析指標

本文研究的復雜網絡均為無權無向網絡,擬采用社會網絡分析法評價節點重要性。社會網絡分析方法起始于20世紀40年代末,常用于評價節點重要性。該方法主要基于這樣一種假設:“重要性等于顯著性”,即節點重要性等價于該節點與其它節點的連接而使其具有顯著性[22]。復雜網絡采用了圖論與社會網絡分析[23]中的許多統計指標,用于度量網絡拓撲結構的復雜網絡特征,包括節點的度值中心性(Degree Centrality)[24]、介數中心性(Betweenness Centrality)[25]、特征向量中心性(Eigenvector Centrality)[26]等。為研究2017年中國內地電影票房的復雜網絡特性,本文對上述指標進行了計算分析。

2.1.1 度值中心性

度值中心性(Degree Centrality)是指節點的度值越大則節點越重要,通常用[Ki]表示節點的度值,該判據是評估節點重要度最簡單的方法。度值中心性是網絡節點重要度的靜態刻畫,由于網絡尺寸N不同,通常采用歸一化度值中心性評估節點重要度。

度中心性是典型的局部信息判據,不能從網絡全局信息層次分析節點重要程度。

2.1.2 介數中心性

介數中心性(Betweenness Centrality)基于網絡全局信息,考察所有節點對之間最短路徑的數目,節點對之間的最短路徑通常存在多條,若節點位于最短路徑上的次數越多,則該節點越重要。如果njk是連接節點j和k之間最短路徑數目,njk(i)是連接節點j和k之間包含著節點i的最短路徑數目,則節點i的介數中心性定義為:

介數中心性相當于一個節點擔任最短路徑橋梁的次數和所有路徑數量的比值。因此,當一個節點出現在其它兩個節點間最短路徑上的次數越多,該節點的介數中心值越大。

2.1.3 特征向量中心性

特征向量中心性(Eigenvector Centrality)。一個節點特征向量中心性值由其鄰居節點的值決定,即一個節點的中心化指標應該等于其相鄰節點的中心化指標之線性疊加。節點i的特征向量中心性定義為:

特征向量中心性反映一個節點的重要性不僅與其鄰居節點的度值有關,也與其鄰居節點的重要性有關。

2.2 節點中心性分析

2.2.1 節點度值中心性分析

在該無向復雜網絡中,網絡節點的度值是指與之相連接的所有邊的總和,電影節點的度值就是指電影與演職人員、制作機構所有連接邊的總和。在一個復雜網絡中,度值中心性認為一個節點的相鄰節點數目越多,影響力就越大,這是網絡中刻畫節點重要性的最簡單指標。在此網絡中,電影的度值大小反映了參與電影制作人力資源的多少,即電影節點的度值越大,表示有越多的人和越多的制作機構參與電影制作。

通過分析統計,電影票房復雜網絡中節點的平均度為2.185,說明在此復雜網絡中平均每個節點影響2.185個其它節點。圖6(a)是度值分布散點圖,可以發現復雜網絡中度值的分布遵守冪律分布。從度值占比餅狀圖6(b)中可以看出,此網絡中度值為1的節點占據整個網絡的79.16%,在剩下節點中占比較重的也是度值為2的節點,即這些與其它聯系很少的節點占據了網絡中相當大的比重。較高度值節點占少數,而這些度值較高的節點具有較強的關聯性,主要分布在網絡結構中心。度值的分布散點圖與度值占比餅狀圖,印證了電影票房復雜網絡的無標度性,即在網絡中的大部分節點只和很少節點連接,而有極少節點與非常多的節點連接。

圖7是度值與票房分布散點圖,可以看出度值在9~18之間出現票房超過10億的電影。但是,在該范圍內,高度值、低票房的電影占到了大多數,說明高投資不一定能換得高票房。影響票房因素很多,因此,在電影投資過程中不能盲目投入,要量化分析,理性投資。

對本文復雜網絡分析發現,任達華、成龍、岳云鵬節點度值最高,即2017年出演電影數量最多。但從圖8高度值演員參演電影排名折線圖(電影排名越小票房越高)發現,2017年參演電影較多的演員中,除成龍外,其他幾位演員所參演的電影只有極少數有著高票房,說明高產演員不一定能帶來高票房。由此,根據度值大小計算方式可知,電影度值大小取決于與電影相關的人物和制作機構的數量,并不能真實表現出電影票房網絡的中心性。因此,度中心性雖然計算方便簡單,但不能很直觀地反映中國內地票房復雜網絡的中心性。

2.2.2 介數中心性分析

電影是演職人員和電影制作機構合作的橋梁,復雜網絡中電影節點介數中心性越高,表明該電影越有影響力。與此同時,在復雜網絡拓撲圖中刪除該電影節點對其它節點影響更大。同理,演職人員節點、制作機構節點的介數中心性越大,說明他們的影響力越大。

根據介數中心性對節點進行排序,表3是依據介數中心性統計的主要人員及其參演電影排名;圖9是電影介數中心值與票房的散點分布圖;圖10是介數中心性排名前50和后50的電影票房折線圖。

參考文獻:

[1] WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world networks[J]. Nature,1998,393(6684):440-442.

[2] FALOUTSOS M,FALOUTSOS P,FALOUTSOS C. On power-law relationships of the Internet topology[J]. Poceedings of ACM SIGCOMM,1999,29(4):251-262.

[3] LILJEROS F, EDLING C R, AMARAL L A N, et al. The web of human sexual contacts[J]. Nature,2001, 411(6840): 907.

[4] EBEL H, MIELSCH L I, BORNHOLDT S. Scale-free topology of e-mail networks[J].? Physical review E, 2002, 66(3): 035103.

[5] SEN P,DASGUPTA S,CHATTERJEE A,et al. Small-world properties of the Indian railway network[J]. Physical Review E,2003,67(3): 036106.

[6] ERDOS P, RéNYI A. On the evolution of random graphs[J]. Transactions of the American Mathematical Society,1960, 5(1): 17-60.

[7] ERD?S P, RéNYI A. On the strength of connectedness of a random graph[J].? Acta Mathematica Hungarica, 1961, 12(1-2): 261-267.

[8] BOLLOBáS B, SIMON I. Repeated random insertion into a priority queue[J].? Journal of Algorithms,1985,6(4): 466-477.

[9] TRAVERS J, MILGRAM S. The small world problem[J].? Phychology Today, 1967, 1(1): 61-67.

[10] 周濤,柏文潔,汪秉宏,等. 復雜網絡研究概述[J]. 物理, 2005, 34(1):31-36.

[11] BARABASI A L, ALBERT R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439):509-512.

[12] 蔡澤祥,王星華,任曉娜. 復雜網絡理論及其在電力系統中的應用研究綜述[J]. 電網技術,2012, 36(11):114-121.

[13] WANG X F,CHEN G. Complex networks: small-world, scale-free, and beyond[J].? IEEE Circuits and Systems Magazine, 2003, 3(1):6-20.

[14] JEONG H,TOMBOR B,ALBERT R,et al. The large-scale organization of metabolic networks[J]. Nature,2000,407(6804):651-654.

[15] 陳培文,陳峰,胡映月,等. 基于復雜網絡的城市軌道交通網絡中心性研究[J]. 復雜系統與復雜性科學, 2017(2):97-102.

[16] 張正帥,陳時軍,周晨,等.? 利用復雜網絡技術分析地震活動性特征[J]. 復雜系統與復雜性科學, 2018(2):10-17.

[17] 傅杰,鄒艷麗,謝蓉. 基于復雜網絡理論的電力網絡關鍵線路識別[J]. 復雜系統與復雜性科學, 2017(3):95-100.

[18] 韓忠明,原碧鴻,陳炎,等. 一個有效的基于GBRT的早期電影票房預測模型[J]. 計算機應用研究, 2018(2):410-416.

[19] 何雙男. 中國大陸地區電影票房影響因素實證研究[J]. 電影文學, 2017(22):4-8.

[20] 郭新茹,黃舒沁. 明星效應與中國電影票房的實證研究[J]. 現代傳播:中國傳媒大學學報, 2017(12):120-125.

[21] 鄭堅,周尚波. 基于神經網絡的電影票房預測建模[J]. 計算機應用, 2014, 34(3):742-748.

[22] 赫南,李德毅,淦文燕,等. 復雜網絡中重要性節點發掘綜述[J]. 計算機科學, 2007,34(12):1-5.

[23] 羅家德. 社會網分析講義[M]. 北京:社會科學文獻出版社, 2010.

[24] FREEMAN L C,ROEDER D,MULHOLLAND R R. Centrality in social networks: II. experimental results [J].? Social Networks,1979,2(2):119-141.

[25] LIU Y Y, SLOTINE J J, BARABáSI A L. Controllability of complex networks[J].? Nature, 2011, 473(7346):167.

[26] EVERETT M, BORGATTI S P. Ego network betweenness[J]. Social Networks,2005,27(1):31-38.

[27] 汪宏,鮑中奎,張海峰. 基于標簽傳播識別網絡中的關鍵節點[J]. 復雜系統與復雜性科學, 2017(2):19-25.

(責任編輯:孫 娟)

猜你喜歡
復雜網絡電影票房
新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
打鐵還需自身硬 2020年10月電影票房排行榜
意料之中,整體表現平淡 2020年9月電影票房排行榜
提前邁過“600億大關”2019年12月電影票房排行榜
暑期檔繼續“遇冷”2019年7月電影票房排行榜
基于復雜網絡節點重要性的鏈路預測算法
基于復雜網絡理論的通用機場保障網絡研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合