?

神經網絡分位數在地震保險中的運用

2019-12-18 03:17李仁祥
新營銷 2019年14期
關鍵詞:位數經濟損失線性

□ 李仁祥

(蘭州財經大學統計學院 甘肅 蘭州 730020)

引言

由于地震損失數據具有尖峰厚尾的特性,使得傳統的均值線性模型不能很好的解釋。于是考慮選擇使用分位數回歸,因為分位數回歸不用設定像傳統均值模型的正態分布假設以及建立分布的參數。近幾年研究提出了函數系數的分位數回歸模型,該模型假設模型的回歸參數和分位數水平p有某些函數關系,這樣可以直接估計出函數關系,避免了分位數回歸需要在不同分位數水平下建模的局限性。例如,孟生旺和李云仙通(2019)[1]過分析了傳統分數回歸和函數系數分位數回歸的優缺點,并基于我國地震損失數據討論的它們的應用和以及計算了在不同條件下的風險度量。但是,影響地震損失的個因素不一定是線性的關系,如果只是使用分位數回歸模型討論可能會有一定的偏差。例如,許啟發(2014)[2]使用神經網絡分位數的VaR風險測度,解決了VaR風險測度在尾部風險測度的難題。阮素梅和于寧(2015)[3]使用神經網絡分位數模型對證券投資收益條件密度函數預測。何耀耀等(2013)[4]使用神經網絡分位數模型推測電力系統短期負荷,得到了更精確的結果。

機器學習算法作為一個新的預測模型,在很多的領域獲得了一定的效果,尤其在車險損失的預測和車險費率的厘定。例如,孟生旺(2012)[5]首次使用神經網絡預測汽車保險的索賠頻率,提高了汽車保險索賠頻率的預測準確度。孟生旺(2017)[6]把機器學習算法使用在索賠發生概率和累積賠款預測當中,并基于真實的汽車保險損失數據進行實證檢驗。

本文將對地震損失數據分別建立線性回歸模型、線性分位數回歸模型和神經網絡分位數回歸模型,對比3個模型的結果。神經網絡模型目前尚未被用到地震損失數據預測當中,所以本研究具有一定的理論意義;并且相關管理人員在進行決策的時候,本研究結果可以提供一些參考,具有一定的意義。

一、分位數回歸

(一)模型確立

為了彌補線性回歸只能描述解釋變量對被解釋變量條件均值影響和隨機項要均值是0并且同方差的正態分布,Koenker等提出了分位數回歸模型。分位數回歸模型描述了解釋變量對于被解釋變量的條件變化影響,以及它的隨機項不用具體的分布假設。

給一個分位點τ(0<τ<1),y為被解釋變量,x為解釋變量,則分位數回歸模型為:QT(Y|x)=XTβτ。其中QT(Y|x)被叫做是τ的條件分為數函數。βτ為估計參數。

(二)參數的估計

分位數回歸主要有兩種參數估計的方法一種是單純形算法,另一種是內點法。單純形算法在處理樣本量不大并且自變量個數不多時候得出的參數穩定性比較好,但是處理大量數據運算時候速度會明顯下降。而內點法適合樣本量比較大,自變量不多的數據。比較常用的是單純形算法,本文就使用單純形算法進行參數估計。建立非對稱損失函數

基于非對稱損失函數,可以通過下式得到回歸系數的估計量:

二、神經網絡分位數

(一)模型確立

神經網絡分位數(QRNN)模型是一個非參數的分位數回歸模型。本文使用實踐中應用最多的單個隱含層前饋神經網絡,其神經網絡結構為含有m個輸入變量(xi,i=1,2,…,m)的輸入層,對于本文這些變量是地震指數,含有n個神經單元的隱含層和1個輸出層,對于本文輸出層輸出的數據就是地震損失數據。模型結構建立如下:

(1)建立從輸入層到隱含層的連接。

(2)從隱含層到輸出層的模型連接結構。

(二)參數估計

本文根據Cannon提出的AIC準則進行最優隱含層節點數的選取。

依據AIC準則,使AIC(τ,n)值最小的n*值為最優隱含層節點個數,即:

確定好隱含層節點個數后,通過優化目標函數來實現參數估計。

三、地震巨災數據分析

(一)數據來源以及初步分析

從中國地震信息網中獲得我國大陸地區每次發生地震災害的基礎數據信息,再綜合不同時間不同發生地震災害事件所在省地震局的地震災害評估信息,本文收集了1990年到2015年一共278次的地震災害和經濟損失信息(單位:萬元)。因為地震造成的當年經濟損失受通貨膨脹或者經濟增長的影響,在進行分析前,本節基于GDP的增長率,把地震造成的經濟損失數據調節到了1990年的水平。

通過初步分析得出,直接經濟損失最小值是3,最大值是49960678,均值是184189,標準差是2996217。由此可以得出,樣本數據具有離散性大,有極端值的情況,直接通過觀察散點圖來得出地震經濟損失與地震損失指數的關系比較困難。為了后續數據的直觀展示,本小結對地震直接經濟損失數據取對數,但是后續的數據分析還是使用未進行取對數的數據,取完對數之后的地震直接經濟損失數據的基本統計量為:最小值是1.244,最大值是17.727,均值是6.509,標準差是2.108696,能夠看出對地震直接經濟損失數據取完對數之后,數據離散程度得到了一定的降低。

對地震損失數據做Shapiro-Wilk檢驗,得出p值分別為0.0001539和小于2.2e-16。P值都小于0.05,表明地震損失數據在5%置信水平下拒絕原假設,也就是說地震損失數據不服從正態分布。因此使用線性回歸分析不能較好的預測地震損失的規律,所以本文討論使用分位數回歸和神經網絡分位數模型對地震損失數據規律進行揭示。

(二)變量的選取

考慮到地震震級和烈度之間有一定相關關系,所以本文先使用主成分分析對震級和烈度做了分析,取其第一主成分作為地震損失指數(d)。分別做了地震震級、地震烈度和地震損失指數對地震損失數據的線性回歸,其中地震損失指數得出模型的R方是最大的為0.054,其它兩個模型分別是0.044和0.038,也就是說地震指數模型的效果比其它兩個模型要好。所以本文接下來將使用由地震震級、地震烈度構成的地震損失指數作為被解釋變量。d=0.85*震級+0.85*烈度

(三)結果分析

(1)線性回歸模型和分位數回歸的結果就比較

表1是關于線性回歸模型和分位數回歸模型的實證結果比較,分位數回歸的分位點分別選取0.15、0.25、0.5、0.75、0.9這5個數。

表1 線性回歸與分位數回歸對比

比較表1中的線性回歸模型和分位數回歸模型結果可知,線性回歸模型和分位數回歸模型中的高分位點結果更接近。從表1中分位數回歸來看地震損失指數在低分為點和最高分位點影響的顯著性沒有中間分位點的大,但在線性回歸模型中顯示有明顯的顯著影響;從之前的理論可以得知,線性回歸模型只能顯變量的一個平均變化情況,并不能像分位數回歸模型一樣能夠解釋每個分位點的變動情況,因此線性回歸模型在解釋方面不夠精確,應該選擇分位數回歸模型進行分析結果。

(2)神經網絡分位數模型與分位數回歸結果比較

根據AIC準則,神經網絡隱藏層的節點數選擇為5,建立神經網絡分位數模型。

通過對均方誤差(RMSE)的計算,見表2,發現神經網絡分位數模型的預測結果在分位點比較小的情況下表現比分位數回歸模型好,精度高。同時在高分位數這塊,與神經網絡分位數相差不大。出現這樣的原因是因為在高分位點附近有很大的地震損失數據,比如唐山大地震和四川汶川大地震這樣的數據,造成了在高分位點附近兩種模型效果相差不大的情況。但是就表4低分位點附近的數值進一步說明了前面的結論地震損失指數這個變量對地震損失數據的影響表現出非線性關系。所以使用神經網絡分位數模型進行結果預測和解釋是相對有效的。

表2 神經網絡分位數與分位數回歸RMSE對比

四、結論

本文先對變量進行一個整合對比,選出最適合的變量進行建模。然后分別使用了線性模型、線性分位數回歸模型和神經網絡分位數模型構建模型,通過比較發現線性回歸模型只有一個結果因為它是對均值回歸建模的,所以不能夠完全說明變量的分布特征。但是分位數回歸模型能夠解釋各變量在不同分位點的變化、影響程度以及分布情況。又因為變量與解釋變量之間存在一定的非線性關系,使用線性回歸模型和線性分位數回歸模型進行分析就會出現一定的偏差。因此,為了說明變量之間的分布特征,還能獲得較好的預測精度,本文選擇了神經網絡分位數模型進行分析。所以使用神經網絡分位數模型進行地震損失數據的預測具有一定的參考價值,并且發現使用該模型在低分位點附近有較好的效果,這為行業相關的管理者提供了一些有用的信息。

猜你喜歡
位數經濟損失線性
交通運輸部關于海上交通事故等級劃分的直接經濟損失標準的公告
美國供水與清潔基礎設施不足造成每年85.8億美元經濟損失
漸近線性Klein-Gordon-Maxwell系統正解的存在性
五次完全冪的少位數三進制展開
二階線性微分方程的解法
燒傷創面感染直接經濟損失病例對照研究
遙感衛星CCD相機量化位數的選擇
“判斷整數的位數”的算法分析
基于分位數回歸的剪切波速變化規律
具有θ型C-Z核的多線性奇異積分的有界性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合