?

基于網絡搜索數據的平遙旅游客流量預測分析

2016-11-25 17:51靳鑫元羅珊
時代金融 2016年27期
關鍵詞:機器學習預測

靳鑫元+羅珊

【摘要】本文基于百度指數進行旅游關鍵詞的挖掘,運用決策樹、bagging、隨機森林和支持向量機四種算法模型對旅游關鍵詞與平遙古城游客流量關系進行分析,并比較了各模型的擬合度、穩定性及預測效果。實證研究發現,隨機森林模型穩定性最好,SVM模型擬合和預測效果最好,因此SVM模型可以作為最終的平遙古城客流量預測模型。

【關鍵詞】平遙古城 百度指數 機器學習 預測

一、引言

近年來,我國旅游產業規模不斷擴大,平遙古城作為中國境內保存最完整的古代縣城與票號文化發源地,游客量快速增長,逐年增加的游客對古城承載力及景區建設提出了更高要求。與此同時,隨著互聯網技術的發展以及大數據時代的到來,旅游信息傳播形式、游客信息搜索方式、旅游消費行為等均發生了巨大改變。許多旅游經營者、旅游企業及政府機構都通過互聯網平臺發布旅游信息,隨之互聯網平臺也成為廣大游客出游的重要信息來源,相應產生的網絡搜索數據則逐漸成為高質量的游客旅游搜索行為數據庫。2011年百度推出的百度指數可以直接、客觀地反映某特定時間段內的社會熱點、用戶興趣和需求,并且實證表明利用百度指數這一網絡搜索指數進行預測克服了傳統預測中存在的數據滯后以及數據量不足的缺陷,結果更為準確、更具時效性。因此,本文依托百度指數的時效性,挖掘旅游網絡關注度和實際旅游需求的關系,預測景區客流量,對指導旅游管理部門做出科學、合理的決策安排,促進旅游可持續發展具有重要意義。

二、指標選取與數據

(一)指標選取

根據指標選取理論的分析可知,用戶搜索行為反映了用戶近期行為,但由于搜索用戶的異質性,不同用戶對某一事物的關注度有所不同,從而使得搜索關鍵詞也具有多樣性,且關鍵詞應包含與目標事物相關的各個方面。因此,本文在已有文獻基礎上,根據相關旅游經驗及人們外出旅行時的主要考慮因素,即衣、食、住、行、游5個方面,通過百度指數“趨勢研究”和“需求圖譜”兩個模塊來進行關鍵詞的提取,這5個方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門票、平遙古城旅游攻略等多方面信息。本文將這5個方面的相關詞作為初始關鍵詞,運用百度關鍵詞挖掘進行關鍵詞搜索,從而得到最終的關鍵詞指標。

(二)數據說明

本文的關鍵詞數據是利用網絡爬蟲技術從百度指數網頁源代碼中提取得到的。在利用初始詞進行關鍵詞搜索過程中,剔除沒有數據對應和數據量很少的關鍵詞,最終得到57個關鍵詞從2011年12月到2014年12月共162周的數據。平遙古城旅游客流量數據來自山西省旅游局,選取的時間區間為2011年12月至2014年12月,共37個數據。由于我們得到的關鍵詞數據為周度數據,而本文研究的是月度數據,所以要對關鍵詞數據進行處理,將周度數據轉化為月度數據,即按照日歷中各月周數進行加總,將每月最后幾天數據按所在周的天數作為權重,將該周的數據按權重分配到相鄰月中,最終得到37個月的搜索指數數據。

三、實證分析

首先對模型擬合和預測有兩點說明:一是擬合樣本區間為2011年12月到2014年10月,共35個數據,用于預測檢驗的樣本區間為2014年的11月到12月2個月的數據。二是在模型擬合效果的比較上,本文引入MSE和NMSE兩個指標,分別代表模型的穩定性和擬合度。

(一)搜索關鍵詞確定

首先,利用簡單手動篩選,觀察所有關鍵詞數據,將趨勢變化不明顯或幾乎無變化趨勢的剔除;然后,利用Pearson相關系數篩選,分別計算各關鍵詞與因變量的Pearson相關系數,將相關系數小于0.6的剔除;最后,利用線性回歸篩選,并診斷回歸的多重共線性和自相關,利用逐步回歸及AIC準則選出最終的4個關鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿。

(二)模型估計

在篩選關鍵詞過程中,我們構建了一個線性回歸方程,回歸估計如下:

從回歸結果看,總體擬合效果較好,變量系數均通過顯著性檢驗,因此該線性模型似乎具有較好預測效果。但為進一步考察模型假設是否成立,我們進行殘差的Shapiro-Wilk正態性檢驗,并且刻畫了因變量直方圖及對應的線性分布圖,檢驗結果均表明因變量不服從正態分布,因此本文利用線性回歸進行模型模擬時并不能滿足其對因變量分布的假定,從而會產生較大誤差,影響擬合和預測效果。

故本文采用了對數據分布沒有任何假定且結果可用交叉驗證方法來評判的四種機器學習方法進行模型擬合及預測,并比較了決策樹、bgging、隨機森林、支持向量機這四種算法模型的擬合度、穩定性與預測效果。

(三)模型結果分析

使用以上四種算法估計模型,計算出各模型的MSE和NMSE,結果見表1。

從模型的擬合度和穩定性來看,回歸樹和Bagging都存在明顯不足,其MSE和NMSE 值均大于另外兩個模型,回歸樹模型在所有模型中擬合效果最差。而隨機森林和支持向量機(SVM)這兩種模型的效果較好,其中隨機森林的擬合度和穩定性最佳,SVM模型的擬合度較好,但模型穩定性不佳。最后分別用以上算法模型對樣本期外兩個月的客流量進行預測,并將其與真實值對比,計算其平均誤差率,結果見表2。

如表2所示,模型擬合效果較差的回歸樹和bagging的預測效果仍不理想,平均誤差率分別達到了11.55%和7.18%,與真實客流量數據相比存在較大偏差。同時,擬合效果最佳的隨機森林預測效果并不理想,其平均誤差率達8.54%,甚至差于bagging。而SVM模型的平均誤差率僅有1.46%,具有較好的預測效果。分析原因,筆者認為可能是由于bagging、回歸樹、隨機森林三種算法模型的分類原理本質上源于歸納算法,這類模型在結構復雜的數據集上學習能力和適應性不夠強,有效性和伸縮性不足,而SVM則采取了與傳統模型不同的思想,具有較強的泛化能力,所以預測結果與實際較為接近。

四、結論

本文在分析旅游客流量和百度搜索指數關系的基礎上,運用一系列方法篩選出與旅游客流量相關性最高的四個關鍵詞,并運用回歸樹、bagging、隨機森林和SVM四種機器學習算法模型對客流量數據進行了擬合和預測。研究具體結論主要有三點,一是主要或潛在游客主要通過對“平遙古城旅游攻略”、“平遙古城地圖”、“山西旅游景點大全”、“平遙住宿”等關鍵詞的搜索來獲取平遙古城旅游信息。二是回歸樹、bagging、隨機森林和SVM模型中,擬合效果最好的是隨機森林和SVM模型,穩定性最好的為隨機森林模型,回歸樹、bagging的擬合度和穩定性都較差;預測效果最好的為SVM。因此,綜合擬合度、穩定性和預測效果可知,SVM模型的整體效果最好,可以作為最終的平遙古城旅游客流量預測模型。三是利用關鍵詞的百度指數來對平遙古城旅游客流量進行預測,可以在每月月底得到較為準確的數據,這比相關部門公布的數據提前了15天左右,具有較高的時效性。

參考文獻

[1]Choi H,Varian H.Predicting the Present with Google Trends[J].Economic Record,2009,88(s1):2-9.

[2]黃先開,張麗峰.百度指數與旅游景區游客量的關系及預測研究——以北京故宮為例[J].旅游學刊,2013,28(11):93-100.

[3]殷杰,鄭向敏.基于VECM模型的景區網絡關注度與旅游人數的關系研究——以鼓浪嶼為例[J].福建農林大學學報,2015,18(5):68-75.

作者簡介:靳鑫元(1991-),女,漢族,河北保定人,碩士,山西財經大學統計學院研究生,研究方向:應用統計、數據挖掘;羅珊(1992-),女,漢族,貴州遵義人,碩士,貴州大學經濟學院研究生,研究方向:商業銀行經營與管理。

猜你喜歡
機器學習預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
不可預測
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合