?

紐約出租車出行狀況調查

2018-05-14 12:12李少泉
今日財富 2018年25期
關鍵詞:線性上車神經網絡

李少泉

基于紐約2016年1-6月出租車出行記錄,分析了紐約出租車行駛數據,探究出租車每次行程的出行時間與出租車所在公司、乘客人數、上車日期、是否周末以及行駛距離之間的關系。

描述性分析部分,首先基于數據進行統計,計算出平均每天出租車出行時間、平均行駛路程、出行高峰期等數據特點,其次利用Arcgis軟件,將所有出租車上車下車地點畫在紐約市地圖上,研究人們送別或迎接親朋好友的習慣。

對于出租車出行時間的預測,本文首先使用了多元線性回歸模型,再利用向前向后逐步回歸,之后引入主成分分析法,利用六個主成分回歸新的線性模型,于是進一步改進使用神經網絡擬合,分別建立了Levenberg模型、貝葉斯模型以及量化梯度下降算法,分別都建立了有十個隱含層的神經網絡模型,效果有較大改善,平均絕對誤差分別為:286s,281s,293s。

一、數據來源及說明

數據主要來源于機器學習競賽網站kaggle,分析了2016年1月-6月共計145萬條紐約出租車數據。

具體如下表:

自變量:公司、開車月份、開車日期、開車幾點鐘、乘客數、上車經度、上車緯度、下車經度、下車緯度。

應變量:行駛時長。

二、描述性分析

該部分主要是對數據進行簡單分析處理。將145萬條數據進行統計后發現,紐約出租車每天出行平均時間為2136小時,平均載客行駛直線距離為23900公里。

曼哈頓的出租車非常密集,幾乎占紐約出租車上下車的百分之九十。 注意到地圖的右下角出租車也較為密集,發現該地點為紐約最大的國際機場:肯尼迪國際機場。挑出該地的數據進行分析。

找出飛機場的經緯度,將所有出租車的經緯度挑出與之計算距離,小于5公里定義為在飛機場停車的人們。

發現,目的地是飛機場的出租車明顯少于出發地是飛機場的出租車。于是我們提出疑問,是否人們更傾向于使用使用私家車送別親朋好友,這可以是后續的研究方向。

再之后研究了工作日與周末出租車的運行情況。發現周末出租車凌晨發車輛明顯高于工作日,甚至周末0點時出租車出發時間為全天最高,說明紐約周末夜生活很豐富。

三、數據建模

首先直接利用多元線性回歸,方程為:

得到如下結果,除了公司、乘客數以外,其他都較為顯著,模型整體p值也較小。

但返回驗證后,平均絕對誤差為340,較大,該模型效果一般。

用向前向后逐步回歸后,得到方程為

計算后平均絕對誤差也為340,效果未得到改善。

再建立主成分分析線性模型。

方程為:

計算后平均絕對誤差為340,效果也未得到改善。

四、模型改進

經過研究認為,出租車行駛時間與各個自變量之間線性關系不強,導致誤差較大。又因為神經網絡模型可以很好的回歸定量數據,于是想到運用神經網絡進行改進。

主要運用了matlab中的神經網絡擬合工具箱,分別使用Levenberg模型,貝葉斯模型以及量化梯度下降算法,都建立了具有10個隱含層的神經網絡模型。

結果如下表:

五、未來研究方向

雖然最后使用的神經網絡三種算法已經明顯改進了算法,但是由于使用的是matlab工具包,無法對模型細節進行更多調節,之后可以嘗試用python進行算法的詳細構建。(作者單位為北京化工大學)

猜你喜歡
線性上車神經網絡
基于人工智能LSTM循環神經網絡的學習成績預測
基于圖像處理與卷積神經網絡的零件識別
基于自適應神經網絡的電網穩定性預測
關于非齊次線性微分方程的一個證明
A Study of Code-Switching in the Series Films of Rush Hour
非齊次線性微分方程的常數變易法
線性耳飾
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
探究向量的線性、坐標運算
防暈車
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合