?

基于機器學習的區域救護車需求量預測模型的比較

2022-10-18 08:45江慧琳伍卓文李雙明羅一洲黃海銓茅海峰伍寶玲陳曉輝
中國急救醫學 2022年10期
關鍵詞:平均溫度時間段需求量

劉 佳, 江慧琳, 王 靜, 伍卓文, 李雙明, 曾 睿, 羅一洲, 黃海銓, 茅海峰, 程 琦,伍寶玲, 陳曉輝

院前急救是急診醫療服務的第一道防線。當前公共衛生醫療服務面臨著人口老齡化、各種急危重癥發病率的逐年增長以及各種突發自然災害、事故災害、公共衛生事件頻發的情況,導致院前急救服務需求不斷增加[1]。在救護車服務需求增加和衛生資源有限的背景下,及時預測救護車需求有助于戰略性規劃配置衛生服務資源以滿足群眾的需求,還可作為管理居民救護車需求溢出的預警。在臨床領域中已有許多研究成功地運用不同的統計方法預測特定的疾病事件或疾病總例數等[2-4],主要是運用機器學習和傳統統計方法進行預測,大部分研究結果都展示出機器學習的預測效能要優于傳統統計方法[5-6]。

有許多研究表明,天氣因素對院前急救需求量有影響,比如溫度[7-8]和PM2.5[9],因此研究所用數據有時間、天氣兩類數據,時間數據是時間段數據,適合用于時間序列算法模型,所以考慮使用比較成熟穩定且使用頻率較多的長短期記憶網絡(long short-term memory, LSTM),同時選用研究頻率同樣較多的極限梯度提升(eXtreme gradient boosting, XGBoost)分析數據進行對比,并進行預測模型性能評價,為救護車需求預測預警提供參考。

1 資料與方法

1.1研究設計和地點

本研究是一項回顧性研究,數據來源是2009~2018年某大學附屬醫院出車急救任務的120呼叫數據,呼叫數據均從廣州市急救醫療指揮中心信息系統獲取。本院位于廣州市老城區之一海珠區,該區的常住人口106.73萬人,60歲以上人口27.48萬人。

本研究根據2009~2018年急救出車數據和天氣數據數據集使用XGBoost和LSTM對每日救護車需求進行預測,并進行預測模型性能評價。

1.2數據類型

出車數據:從廣州市急救醫療指揮中心院前急救調度系統收集到變量有六轄區每日院前急救呼叫量;氣溫數據:從國家氣象局收集到變量有日最低溫度(℃)、日最高溫度(℃)、日平均溫度(℃)、日平均濕度(%)、日平均風速(m/s)、日平均氣壓(hpa)、日平均能見度(km)、日總降水量(mm)、日平均總云量(%)。

納入預測模型的自變量包含四個維度,分別是時間序列數據(星期、休息日)、天氣維度(每日最低溫度(℃)、日最高溫度(℃)、日平均溫度(℃)、日平均濕度(%)、日平均風速(m/s)、日平均氣壓(hpa)、日平均能見度(km)、日總降水量(mm)、日平均總云量(%)、救護車需求量滯后項(當前時間段的前一個時間段的需求量、當前時間段的前第二個時間段的需求量)、救護車需求變化量(前兩個時間段救護車呼叫量做差值)。因變量是廣州市六轄區每日院前急救需求量。將連續2天及以上沒有救護車呼叫的數據作為缺失數據,做缺失處理。

1.3研究方法 納入訓練和測試的數據包括時間特征、天氣特征和救護車需求量滯后特征。在XGBoost中,時間分解為月、日2個獨立的變量,代表其時間背后的節假日、氣候等其他因素。在LSTM中,把每日的出車數據與天氣數據按照日期合并,將合并后的數據經過數據預處理操作后,搭建LSTM模型訓練數據并預測救護車需求量結果。

1.4數據預處理

1.4.1 歸一化處理 將救護車呼叫數據和天氣數據按時間先后順序排列,將呼叫量數據,進行歸一化處理,即呼叫量數據統一轉化為0~1之間的數。將數據進行歸一化處理是模型預測過程中的基礎,目的是讓不同特征在數值上有一定比較性,便于比較不同特征[10]。數據歸一化處理可以加快運算速度并防止迭代運算時的可能溢出,也可在一定程度上提升模型的精度。數據歸一化公式:

1.4.2 滯后變量 考慮到疾病發生具有窗口期,因而救護車需求會隨天氣的變化有滯后效應,而院前急救需求量的數據是與時間序列相關的,所以有可能上一個時間段或更之前的時間段會影響到該時間段,因此考慮生成滯后項,讓模型學習其中的規律,生成滯后項的步驟和計算方法如下。

(1)對數據按時間序列先后進行排序。

(2)生成2個滯后項(回溯2個時間段的需求量),①一階滯后項:當前時間段的前一個時間段的需求量;②二階滯后項:當前時間段的前第二個時間段的需求量。

(3)生成1個需求量變化量 二階滯后差分:一階滯后項與二階滯后項做差值。

本研究所有數據均使用Python3.6.7進行分析。

1.5模型選擇 將可用數據的前70%數據作為訓練集,后30%數據作為驗證集,訓練集通過使用訓練機制訓練模型??紤]到時間數據對救護車需求的影響較大,同時需要加入天氣數據,因此選擇使用時間系列模型和回歸模型。

1.5.1 XGBoost XGBoost是一種集成決策樹算法,可以將所有數據和特征納入模型且保留記憶,即對大數據的處理能力強且能夠儲存重要的歷史事件并加以標記。本研究中XGBoost模型做了如下幾個優化:①XGBoost模型對損失函數同時使用了一階導數和二階導數,對損失函數進行二階泰勒公式展開。②XGBoost模型不僅支持以CART決策樹為基礎的分類器,還支持線性分類器。③采用了列抽樣(column subsampling)的方式。④XGBoost模型在特征層面上使用了并行運行操作。⑤XGBoost模型對目標函數添加了正則項。

1.5.2 LSTM LSTM是一種特殊的循環神經網絡(RNN)算法,通常有3個階段:忘記階段、選擇記憶階段、輸出階段[11]。本研究中LSTM采用交叉熵作為損失函數,在反向傳播中為降低損失,會不斷地用學習數據進行迭代更新每個門以及計算步驟的權重系數W、U、b,從而引起每個細胞的細胞狀態值進行更新變化。在反向傳播的機制下,依然采用類似神經網絡的梯度下降法來更新各個參數的權重系數。

1.6模型評價指標

利用測試集數據進行模型的性能評價,實際上是對模型預測需求量的準確性評價,模型性能通過平均絕對誤差(mean absolute error, MAE)和平均絕對百分比誤差(mean absolute percentage error, MAPE)指標評價。

MAE計算公式:

MAPE計算公式:

當MAPE<10%時,預測具有較高準確度;當MAPE 10%~20%時,預測具有良好的準確度;當MAPE 20%~50%時,預測是合理的;當MAPE>50%時,預測是不準確的[12]。而MAE的值越小則說明預測越準確。

2 結果

2.1院前急救需求情況

2009~2018年10年救護車呼叫數據共有40 014條,平均每個月的救護車需求量在330次左右,日最高呼叫量為42次,日最低呼叫量為0次。10年1月到12月平均救護車需求量的總體趨勢是遞增的,見圖1。

圖1 廣州市某大學附屬醫院每月平均救護車需求量

通過用移動平均法擬合曲線觀察數據變化趨勢,對比擬合正弦方法的紅色曲線差異,擬合出的藍線跟紅線差距較大,沒有明顯的規律性,數據集并無季節性趨勢。見圖2。

圖2 廣州市某大學附屬醫院救護車需求量曲線擬合季節模型

救護車呼叫時間段統計顯示,救護車需求高峰期在早上8:00~11:00和晚上18:00~21:00,凌晨4:00~5:00的需求量最少。每小時平均救護車需求量分布見圖3。

圖3 廣州市某大學附屬醫院每小時平均救護車需求量分布時間

2.2氣候變化情況 氣候數據共有3968條。廣州市2009~2018年10年的日最低溫度、日平均溫度、日平均總云量和日平均濕度的總體變化趨勢是一致的。日最低溫度月均值是7月最高,1月最低;平均溫度月均值是7月最高,1月最低;平均總云量月均值最高是4月,最低是10月;平均濕度月均值最高是6月,最低是12月。見圖4。

圖4 廣州市2009~2018年天氣特征每日變化圖

2.3天氣數據與救護車需求量的滯后關系

為了研究最高溫度、最低溫度和平均溫度對每日救護車需求量的滯后影響,采用了阿爾蒙多項式方法,用最小二乘法做的格蘭杰因果檢驗來檢驗模型優劣。具體公式如下:

yt=α+β0Xt+β1Xt-1+β2Xt-2+……+βkXt-k+μt

最高溫度、最低溫度和平均溫度對每日救護車需求量的滯后分析都沒有對出車有明顯影響,見表1~6。

做y關于Z0、Z1、Z2的OLS回歸,根據圖1所示的輸出結果,可計算出原分布滯后模型的參數估計值:α=14.3753,β0=0.05085,β1=0.009255。由R2=0.0052和可決系數R2=0.0042,可知最高溫度對每日救護車出車數量并無顯著影響,擬合優度較低,說明模型對樣本的擬合效果不好。

表1 最高溫度對每日救護車需求量的滯后分析

根據表2所示,當取滯后階數為2期時,格蘭杰因果關系檢驗既拒絕了x不是y的格蘭杰原因的假設,也拒絕了y不是x的格蘭杰因果關系檢測結果。

表2 檢驗結果

做y關于Z0、Z1、Z2的OLS回歸,根據圖1所示的輸出結果,由此可計算出原分布滯后模型的參數估計值:α=14.4718,β0=0.0863,β1=0.0036。由R2=0.0060和可決系數R2=0.0049,可知日平均溫度對每日救護車出車數量并無顯著影響,擬合優度較低,說明模型對樣本的擬合效果不好。

表3 日平均溫度對每日救護車需求量的滯后分析

根據表4所示,當取滯后階數為2期時,格蘭杰因果關系檢驗既拒絕了x不是y的格蘭杰原因的假設,也拒絕了y不是x的格蘭杰因果關系檢測結果。

表4 檢驗結果

做y關于Z0、Z1、Z2的OLS的回歸,根據圖1所示的輸出結果,由此可計算出原分布滯后模型的參數估計值:α=14.3794,β0=0.0664,β1=0.0052。由R2=0.0051和可決系數R2=0.0040,可知最低溫度對每日救護車出車數量并無顯著的影響,擬合優度較低,說明模型對樣本的擬合效果不好。

表5 最低溫度對每日救護車需求量的滯后分析

表6 檢驗結果

2.4XGBoost和LSTM模型的預測結果 測試集中從XGBoost和LSTM模型的每日救護車需求量預測值和真實值對比見圖5、6。從表7可得使用XGBoost模型預測每日救護車需求量的MAE值為2.692,MAPE值為24.29%;LSTM模型預測每日救護車需求量的MAE值為2.462,MAPE值為17.47%,因此LSTM預測每日救護車需求的準確性更高,且MAPE值<20%,說明LSTM模型預測具有良好的準確度。

圖5 極限梯度提升模型測試集中每日救護車預測值與真實值對比

圖6 長短期記憶網絡模型測試集中每日救護車預測值與真實值對比

表7 XGBoost和LSTM每日救護車需求量預測性能比較

2.5院前急救需求量模型特征重要性分析 將天氣和滯后項等影響救護車需求的特征通過XGBoost算法來計算特征重要性排序。特征重要性是一個縮放度量,其中日最低溫度對救護車需求量影響最大,其余依次為日平均溫度、出車量滯后項2天、出車量滯后項1天等,日總降水量對救護車需求量影響最小。見圖7。

圖7 極限梯度提升模型中特征重要性排序

3 討論

本研究揭示了天氣和日期與救護車需求的相關性,且日最高溫度、日最低溫度和日平均溫度對救護車需求量無滯后影響,對模型的預測性能影響較大的前三個變量是日平均溫度、出車量滯后項2天、出車量滯后項1天,提出了基于天氣和日期特征的預測救護車需求模型,研究結果證明LSTM預測模型能較好預測區域救護車日均需求量。

國內外已有許多研究表明院前急救需求量的影響因素有天氣因素、空氣質量因素、社會經濟因素等等,比如Miyatake等[13]選用各種氣溫參數,即氣溫平均值、最高氣溫平均值、最低氣溫平均值、最高氣溫值,并得出這些氣溫參數均與救護車的運輸顯著正相關。Sangkharat等[14]得出,救護車調度可以與極端溫度相關,建議將氣象因素納入救護車預測模型。Chen等[15]選用O3、SO2、NO2、CO等污染物指標,結果顯示,SO2和NO2、CO與哮喘急救車派遣呈正相關。對救護車需求量預測模型研究比較多的是時間序列模型,如Baker等[16]使用由Winters最初開發的指數平滑模型預測救護車需求。而最常用的模型為時間序列模型,Tandberg等[17]采用時間序列的方法(移動平均線、平滑移動平均線和自回歸綜合移動平均線)對連續兩年救護車的每小時運行量、總運行時間、日期等數據構建預測模型,預測每小時救護車的運行量,結果顯示,平滑移動平均線模型得出的預測是所納入研究的模型中最準確的。還有研究使用多種預測模型進行對比,如Channouf等[18]通過消除趨勢、季節性和特殊日子影響后獲得的數據自回歸模型和季節性ARIMA模型預測每日的救護車呼叫量,通過每小時呼叫量向量的多項式分布和將時間序列擬合到每小時級別的數據進行對比預測每小時救護車呼叫量,結果顯示,每日呼叫量預測模型較好的是自回歸模型,每小時呼叫量預測模型較好的是多項式分布模型。

本研究中使用的LSTM模型對某大學附屬醫院每日救護車需求量的預測價值優,因為LSTM為時間序列算法模型,相比于XGBoost對時間數據的學習效果更好,而XGBoost作為決策樹模型更難學習到時間序列中的信息,因此LSTM模型更適合預測救護車需求量,且預測準確性也更高。準確性高的救護車需求量預測模型可以根據預測情況開通合理的調度席位數,避免出現急救電話呼叫擁擠、等候調度時間長等情況導致急救不及時,并可根據預測量提前制定應急方案,此外,還可以根據預測結果和院前急救資源分布的特征,合理配置院前急救資源,最小化臨床風險。對急救網絡醫院來說可以根據預測情況在需求量高峰期安排充足的急救醫護人員和急救藥品等資源,保障患者及時獲得院前急救服務。本研究也為日后救護車需求量預測的深入研究提供參考,后期研究可以進行特征工程或者增加多中心的研究樣本量以進一步提高模型預測準確度。

猜你喜歡
平均溫度時間段需求量
從數學角度看“彈性”
一天中發胖最快的時間段 如果能避開,或許不用節食也能瘦下來
機組運行期間稀釋量淺析
杭州電網最大負荷與平均溫度的相關性研究
發朋友圈沒人看是一種怎樣的體驗
“三天后”是啥時候?
基于非線性規劃的農產品的定價
氣溫變化對哈爾濱市呼蘭區玉米生長發育的影響
雨點
寧夏灌區春小麥葉面積變化的氣象條件分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合