?

基于決策樹算法的電影票房預測研究

2019-09-12 10:41李振興韓麗娜史楠
智能計算機與應用 2019年4期
關鍵詞:電影票房預測

李振興 韓麗娜 史楠

摘 要:決策樹是一種具有樹形結構的機器學習算法,能夠在短時間內處理數據,并能直觀地顯示數據特性。具有速度快、直觀、精度高等特點。本文在大數據分析的基礎上,以2018年國內上映的30部國產電影的信息數據作為訓練模型,選取C4.5算法作為工具,構建出基于決策樹算法的票房預測模型。經過測試,該模型的準確率為78%,并從中分析出影響票房的關鍵因素是演員。

關鍵詞:決策樹算法;電影票房;預測

文章編號:2095-2163(2019)04-0132-05 中圖分類號:TP311 文獻標志碼:A

0 引 言

電影產業是一項高投資、高收益、高風險的行業,當今社會已進入了大數據時代,可以將數據挖掘技術應用到電影票房的預測研究中,為投資者智能規避電影投資風險,并幫助影院運營商優化放映計劃,實現收益的最大化[1-2]。本文提出了一種基于決策樹算法的票房預測模型,該模型將預測問題轉換為分類問題,將電影類型、演員流量程度、導演知名度作為自變量,電影票房類別作為因變量。與以往的主觀假設和頭腦風暴相比,這是一種更可靠、更科學的方法[3]。

1 決策樹算法及相關概念

1.1 決策樹

決策樹算法采用的是自頂向下的貪婪算法,在每個節點上選擇出最優屬性進行分類。算法包括 ID3、C4.5、CHAID、CART、SLIQ、SPRINT等。其中C4.5算法在2006年12月舉行的國際數據挖掘會議(ICDM)上,排在十大數據挖掘算法之列[4]。

1.2 C4.5算法

C4.5算法是一種基于信息熵的機器學習算法,主要采用信息增益率作為條件屬性的判斷標準,信息增益率越高,數據分類能力越強。因此,分別計算每一個條件屬性的信息增益率,選取信息增益率最高的屬性作為下一個分裂節點,以此遞歸即可構建C4.5決策樹[5-7]。相關公式如下:

1.3 決策樹修剪

由于決策樹是由訓練數據集生成的,許多分支反映的是噪聲或孤立點,這可能會增加決策樹分類的錯誤率,因此有必要對決策樹進行修剪 [10]。修剪決策樹一般分為:預剪枝法和后剪枝法。預剪枝法是在樹生長的過程中設置一定的標準來阻止樹木繼續生長。后剪枝法是待決策樹完全生成后再進行剪枝。后剪枝方法比預剪枝方法需要更多的計算量,但通??梢援a生更可靠的樹[11-12]。

2 應用決策樹技術預測電影票房

2.1 數據準備

本次研究中數據信息來源于“中國電影票房年度總排行榜”網,從中抽取48部電影,將其中的30部作為訓練樣本數據,剩余的18 部作為測試樣本數據。數據源主要包括電影類型、電影導演、電影主演。原始數據見表1。

2.2 數據預處理

(1)電影類型。每位觀眾在不同階段可能會有不同的喜好,因此電影類型對于電影票房很重要。變量值有:劇情、喜劇、奇(科)幻、愛情。

(2)電影導演。導演是影片制作的領導者和組織者,決定著影片的質量和影片藝術風格。通過對這些導演的獲獎情況和近三年來執導電影所獲票房的均數進行分析。將國內頂級的大導演劃分為高層次,知名導演劃分為中等層次,非知名導演劃分為低層次。

(3)電影主演。演員具有一定程度的票房號召力,觀眾會因為喜歡的演員而選擇電影。通過對“2018年中國內地演員排行榜”的數據分析,將排名前50的演員劃分為高流量演員,排名51-300的演員劃分為中等流量演員,排名300以后的演員劃分為低流量演員。

(4)電影票房。作為數據的因變量,參考國外學者Ramesh[13]的票房劃分方法,將票房收益高于6億的電影劃分為高票房,將票房收益介于1億至6億之間的電影劃分為中等票房,將票房收益低于1億的電影劃分為低等票房。

經過數據預處理后,量化表示數據表中的描述性文字,得到了30個處理后的數據訓練樣本,見表2。

2.3 C4.5構造決策樹

(4)建立決策樹。因為屬性actor的信息增益率最大,所以選擇屬性actor作為根結點。按照actor的取值,對30個樣本進行分支得到3個子集,如圖1所示。并對每個子集按照以上方法創建分支,最后得到C4.5決策樹,如圖1所示。最后采用后修剪方式,修剪后的C4.5決策樹如圖2所示。

2.4 模型評估

為了驗證模型的可靠性,根據圖3的決策樹對18個測試樣本數據進行了測試,其中14條數據與模型結果一致,準確率達到78%。結果表明,該模型具有較好的預測效果,可為電影票房預測提供一定的參考價值。通過對電影票房的預測和分析,影響票房預測的最重要的因素是演員。演員流量程度越高,其主演的電影票房水平就越高。因此,選擇受歡迎程度高和具有票房號召力的演員才是票房收益的關鍵[14]。

3 結束語

文章將決策樹算法C4.5應用于電影票房的預測研究,通過對電影票房信息數據進行分析處理,建立完整的預測模型。實驗結果說明,基于決策樹算法的電影票房預測模型簡單、快速,為電影票房的預測提供一定的科學依據[15]。不足之處在于模型中選取樣本數據較少,而且沒有全面考慮宣傳力度、同期電影競爭、制片廠、投資、微博指數等影響電影票房的其它因素。此外,構建決策樹時未考慮屬性之間的關聯度,例如演員屬性和導演屬性之間的關聯度,一般具有高流量的演員更愿意和知名大導演合作,很難出現高流量演員和低知名度導演合作的情況,進而影響到決策樹的生成,也影響到電影票房的預測結果,后續應改進完善數據的前期處理分析。

參考文獻

[1]鄭堅,周尚波. 基于神經網絡的電影票房預測建模[J]. 計算機應用,2014,34(3):742-748.

[2]吳發翔,錢佳威,劉江帆. 一種基于C5.0決策樹算法的票房預測研究[J]. 2016 (4):186-192.

[3]張鑫,郭振宇. 基于隨機森林的影片票房預測 [J]. 現代電影技術,2016(3):11-15,35.

[4]WU Xindong, KUMAR V, QUINLAN J R,et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008,14(1):1-37.

[5]周志華. 機器學習[M]. 北京:清華大學出版社,2016.

[6]韓麗娜,韓改寧. 決策樹算法在學生成績分析中的應用研究[J]. 電子設計工程, 2017,25(2):18-21.

[7]李會,胡笑梅. 決 策 樹 中 ID3 算 法 與 C4.5算法分析與比較[J]. 水電能源科學 ,2008,26(2):129-132,163.

[8]楊洋. 決策樹ID3算法及其改進[J]. 軟件導刊,2016,15(8):46-48.

[9]周美琴. 單位代價收益敏感決策樹分類算法及其剪枝算法的研究[D]. 桂林:廣西師范大學.2016.

[10]SHARDA R,DELEN D. Predicting box-office success of motion pictures with neural networks [J]. Expert Systems With Applications,2006,30(2):243-254.

[11]李航. 統計學習方法[M]. 北京:清華大學出版社,2012.

[12]王文霞. 數據挖掘中改進的 C4.5 決策樹分類算法[J]. 吉林大學學報(理學版), 2017, 55(5):1274-1277.

[13]吳思博,陳志剛,黃瑞. 基于相關系數的ID3優化算法[J]. 計算機工程與科學,2016, 38(11):2342-2347.

[14]張慧,王世偉. 基于深度學習對電影票房的預測[J]. 湖北第二師范學院學報,2017,34(8):60-64.

[15]張雪. 基于深度學習卷積神經網絡的電影票房預測[D]. 北京:首都經濟貿易大學,2017.

猜你喜歡
電影票房預測
選修2—2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
選修2—2期中考試預測卷(A卷)答案與提示
選修2—2期中考試預測卷(B卷)答案與提示
7月全國電影票房32.21億元
一季度3省市票房概況
《福彩3D中獎公式》:提前一月預測號碼的驚人技巧!
預測高考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合