李少泉
基于紐約2016年1-6月出租車出行記錄,分析了紐約出租車行駛數據,探究出租車每次行程的出行時間與出租車所在公司、乘客人數、上車日期、是否周末以及行駛距離之間的關系。
描述性分析部分,首先基于數據進行統計,計算出平均每天出租車出行時間、平均行駛路程、出行高峰期等數據特點,其次利用Arcgis軟件,將所有出租車上車下車地點畫在紐約市地圖上,研究人們送別或迎接親朋好友的習慣。
對于出租車出行時間的預測,本文首先使用了多元線性回歸模型,再利用向前向后逐步回歸,之后引入主成分分析法,利用六個主成分回歸新的線性模型,于是進一步改進使用神經網絡擬合,分別建立了Levenberg模型、貝葉斯模型以及量化梯度下降算法,分別都建立了有十個隱含層的神經網絡模型,效果有較大改善,平均絕對誤差分別為:286s,281s,293s。
一、數據來源及說明
數據主要來源于機器學習競賽網站kaggle,分析了2016年1月-6月共計145萬條紐約出租車數據。
具體如下表:
自變量:公司、開車月份、開車日期、開車幾點鐘、乘客數、上車經度、上車緯度、下車經度、下車緯度。
應變量:行駛時長。
二、描述性分析
該部分主要是對數據進行簡單分析處理。將145萬條數據進行統計后發現,紐約出租車每天出行平均時間為2136小時,平均載客行駛直線距離為23900公里。
曼哈頓的出租車非常密集,幾乎占紐約出租車上下車的百分之九十。 注意到地圖的右下角出租車也較為密集,發現該地點為紐約最大的國際機場:肯尼迪國際機場。挑出該地的數據進行分析。
找出飛機場的經緯度,將所有出租車的經緯度挑出與之計算距離,小于5公里定義為在飛機場停車的人們。
發現,目的地是飛機場的出租車明顯少于出發地是飛機場的出租車。于是我們提出疑問,是否人們更傾向于使用使用私家車送別親朋好友,這可以是后續的研究方向。
再之后研究了工作日與周末出租車的運行情況。發現周末出租車凌晨發車輛明顯高于工作日,甚至周末0點時出租車出發時間為全天最高,說明紐約周末夜生活很豐富。
三、數據建模
首先直接利用多元線性回歸,方程為:
得到如下結果,除了公司、乘客數以外,其他都較為顯著,模型整體p值也較小。
但返回驗證后,平均絕對誤差為340,較大,該模型效果一般。
用向前向后逐步回歸后,得到方程為
計算后平均絕對誤差也為340,效果未得到改善。
再建立主成分分析線性模型。
方程為:
計算后平均絕對誤差為340,效果也未得到改善。
四、模型改進
經過研究認為,出租車行駛時間與各個自變量之間線性關系不強,導致誤差較大。又因為神經網絡模型可以很好的回歸定量數據,于是想到運用神經網絡進行改進。
主要運用了matlab中的神經網絡擬合工具箱,分別使用Levenberg模型,貝葉斯模型以及量化梯度下降算法,都建立了具有10個隱含層的神經網絡模型。
結果如下表:
五、未來研究方向
雖然最后使用的神經網絡三種算法已經明顯改進了算法,但是由于使用的是matlab工具包,無法對模型細節進行更多調節,之后可以嘗試用python進行算法的詳細構建。(作者單位為北京化工大學)