?

基于Apriori算法的機動車保險欺詐索賠的關聯度分析

2023-05-22 21:25金慧楊涵予崔浩浩
時代汽車 2023年9期
關鍵詞:Apriori算法關聯分析

金慧 楊涵予 崔浩浩

摘 要:在保險行業中,保險欺詐是當前存在的普遍現象。然而,在保險的全部險種里面,機動車車險欺詐是保險欺詐的高發區之一。本文基于25項特征指標,應用車險欺詐關聯分析模型對某保險公司欺詐識別系統數據進行了分析,得出黑色樣本的頻繁項集,并且在白色樣本中進行驗證,確定了它們之間的具體關聯規則,識別出欺詐索賠事件,得到灰色樣本的欺詐率。研究結果表明,總理賠樣本的欺詐率為37.527%。

關鍵詞:車險欺詐 關聯分析 Apriori算法 欺詐率

1 引言

2019年6月中國保險學會與金融壹賬通聯合發布了《2019年中國保險行業智能風控白皮書》,文中說明就目前我國的所有保險行業里面,車險欺詐滲透約占理賠金額比例高達20%,相應的年損失竟有200多億元,可謂是觸目驚心[5]。在近幾年來,我國車險行業發展迅速,然而當前車險欺詐一直伴隨著汽車保險的發展,高速的發展帶來的結果是保險的經營成本一直在增加,隨著當前欺詐手段和欺詐形式的多樣化,其車險欺詐分別給保險公司、合法投保人以及車險行業的穩定發展帶來了極大的危害[1]。為確保保險行業健康并且相對穩定的發展,減少一些大眾化的保險欺詐,維護一些誠實投保人的利益,保險反欺詐技術研究具有一定的現實意義[4]。

2 建立Apriori算法模型

Apriori算法有兩個重要性質。性質1,頻繁項集的一切子集則均為頻繁項集;性質2,非頻繁集項的超集則必然為非頻繁的[2]。

可以將其整個發現頻繁項集的過程簡述見圖1。首先,我們將頻繁項集中的“1項集”所有的集合尋找出來,標號為L1,在此“1項集”的基礎上,找出頻繁項集中的“2項集”,標號為L2,同樣的道理,依次找出文中所需的頻繁項集的其他項集;但其間,每一次尋找項集時都必須掃描一次數據庫。核心是連接步以及剪枝步兩個內容;連接步就是將其自行連接,但前提條件是前面的“K2”項必須要相同,它們按照26個英文字母的順序依次連接;剪枝步的目的是讓其隨便一項頻繁項集的一切非空子集都必須遵循頻繁的原則[3,6]。

重復上述5個步驟,一直到頻繁項集不出現時即可結束。

3 車險欺詐關聯分析及欺詐率估計

3.1 數據的收集和數據的處理

將國內某保險公司某年的59627例索賠樣本由保險公司內部的理賠管理系統做出初步的篩選;其中將所有的車險理賠樣本分為兩類,高風險子集樣本(欺詐樣本)和低風險子集樣本(合理索賠樣本)。表1為具體的數據量。

在表1中將索賠樣本占有量做出具體分組,本公司針對是否為車險欺詐一共利用25個特征指標(如表2所示)對其所有理賠樣本進行識別,最終識別是否為欺詐索賠,其中任何一項特征指標都針對某一方面車險欺詐與正常索賠的具體特征的差異[7-8]。

通過以下的步驟對將樣本進行分類。

(1)將高風險的子集進行排序并從中篩選出高嫌疑和占比與高風險的子集欺詐率相等的欺詐樣本的一部分;(2)對樣本所有數據進行排序,接著篩選出占比和總樣本的欺詐率相同的欺詐樣本;(3)將上述1與2做交集,將得到文中所需要的黑色樣本數量;(4)低風險子集按照需要排序將其中的沒有嫌疑與占比(1-低風險的欺詐率)相等的樣本篩選出來;(5)總樣本按照所需排序將其中占比與(1-總樣本的欺詐率)相等的樣本篩選出來;(6)將上述的4與5做交集,將得到文中所需要的白色樣本的數量。用總樣本數量減去黑色樣本數量和白色樣本數量將得到灰色樣本數量。最后得出的各類樣本數量如表3所示。

3.2 欺詐模式與非欺詐模式兩者區別

3.2.1 欺詐樣本的頻繁項集

最初,我們需要找出頻繁項集(此處頻繁項集指的是欺詐樣本與非欺詐樣本兩者的具體頻繁項集)。25項特征指標記為i,如果滿足,則i=1,如果不滿足,則i=0。

在本文的研究中將最小的支持度以及最小置信度分別預設為0.3與0.7,也就是說當同時滿足兩個條件,一最小支持度>0.3;二最小置信度>0.7。接著對二、三、四項集進行同樣的分析。在欺詐樣本的二頻繁項集中,0.8323為二項頻繁項集里面的最高支持度,對應的二項集為{19,20},這也說明當兩個指標同一時間同時出西現時,有80%的把握可以認定此樣本為欺詐樣本,表中的頻繁項集{10,20},{10,19},{20,5}同樣認為是較高的支持度,對應支持度是0.77,0.64,0.64。

將上述的13項頻繁項集算出的支持度依次排序,順序按降序排列,如下表4所示,將其對應的支持度做出適當的調整,為后面的頻繁項集用于灰色樣本的一些預測做鋪墊。

3.2.2 非欺詐樣本的頻繁項集

在表4里面結果可以顯示,將其最小支持度具體設為0.5的時候,可以得出其中的13項是頻繁項集,然而非欺詐樣本與欺詐樣本存在著明顯的差異;將其最小支持度設為0.4的時候,僅包含其中的兩項頻繁項集為非欺詐的樣本,它們為項集{5}和項集{10},得出的結果均在正常的范圍之內,因為指標選擇它們都指向欺詐。

3.3 關聯規則的分析

在挖掘關聯規則時應該注意它們的有效性,對前文篩選后所得到的13項黑色樣本的頻繁項集在白色樣本里面都要進行具體的驗證,看是否是有效的,在驗證之前需要將前文的13個頻繁項集分別做出標記,方便進行操作,如表4所示。

驗證頻繁項集是否為有效的,需要滿足以下條件:

黑色樣本是基礎,對于Ai的支持度有一定的滿足條件見式1,假如滿足,則視為有效。

支持度(Ai黑)>支持度(Ai白)(1)

得出結果如表5所示,其上述的13個頻繁項集均為有效的。

接下來需要將各個項集之間的關聯規則挖掘出來。隨便一項以頻繁項集為基礎的黑色樣本的概率均可以由貝葉斯公式計算得出,運用式2得出所有頻繁項集下對應的欺詐率。

P(黑|Ai)=

(2)

將P(F|Ai)記作P1,2,3,……,13。

頻繁項集以及欺詐率將通過表6列舉出來。

由上述的欺詐率可以將每個頻繁項集的關聯規則全部找出,將高欺詐率頻繁項集{19},{22},{10},{5}等4個項集的相關的關聯規則分別做出列舉。

如圖2所示,指標19出現時,欺詐率為0.940295,當指標10與19同時出現,欺詐率為0.976921,還有當指標19與20同時出現時,欺詐率變為0.962684(指標19與指標5同時出現時欺詐率變為0.941999),

如指標10、19、20出現,索賠中含有欺詐的概率為97.69%;指標19、20、5出現,此時索賠中含有的欺詐概率為94.19%。

如圖3,指標22出現時的欺詐概率。

如圖4,指標20出現時的欺詐率。

如圖5,指標10出現時的欺詐率。

如圖6,指標5出現時的欺詐率。

4 欺詐識別

上文中得出的顯著關聯規則有三個,最終結果顯示為項集{20,22},項集{10,19,20}和項集{19,20,5},它們對應的欺詐率分別為98.00%,97.69%和94.20%。因此,用上述的三個項集用作欺詐識別?;疑珮颖镜木唧w占比識別詳見表7。

4.1 樣本預測

在標記的13項頻繁項集里面,只有滿足條件P(黑|Ai)>0.8時,才能將其作為預測對象,最后符合條件的較為顯著的頻繁項集共計11項,將支持度從0.5調升至0.8,將置信度由0.85提升至0.95,再分別做出預測觀察結果。預測結果如表9所示。

表8中的欺詐率計算見式3。

pi=P(F|Ai) (3)

4.2 估計灰色樣本的欺詐率

根據從B1至B13有無交集,將對灰色的樣本欺詐率進行估計分為兩種情況。

第一種情況,假如B1至B13沒有交集,則可用公式4將總的欺詐率算出來。

(4)

其中,X=23085為灰色樣本的總數

第二種情況,假如B1至B13有交集。將P1至P13的大小進行比較,用科學的方法,將交集的部分分到概率大的集合中,假如只有四個頻繁項集并且滿足P1>P2>P3>P4。

因為B1+B2+B3+B4+B5+B6+B7+B8+B9+B10+B11+B12+B13相加之和遠遠大于23085,所有樣本之間存在著交集,因此運用第二種情況來計算。由前文的表格中可以得出:

P(F|A11)>P(F|A9)≥P(F|A8)>P(F|A3)>P(F|A5)>P(F|A13)≥P(F|A12)>P(F|A2)>P(F|A10)>P(F|A7)>P(F|A1)

上面所述的13項的頻繁項集的區分度都是一致的。而且將它們的全部支持度都按照大小進行相關順序排列,假如它們的支持度與區分度的大小兩者之間是相同的,就要用它們頻繁項集的具體個數將其進行排列順序;灰色樣本的欺詐率計算大致為三步。

(1)首先將排序后的第一個B11與(B9,B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,其交集的結果屬于B11,然后計算,S11=B11*P(F|A11);

(2)去掉計算過的B11,將B9與剩下的幾項(B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,同樣交集的結果屬于B9,接著計算,S9=B9*P(F|A9);

(3)循環1和2步驟,計算到所有的樣本沒有交集為止。最后用公式4計算出灰色樣本的欺詐率:

(5)

調整支持度與置信度,由小向大調,從而預測灰色樣本的最終欺詐率見表9;其取值越大,那么結果也就也接近真實數據,得出灰色樣本的具體欺詐率達到51.1%時,對應它們的支持度與區分度兩個數據分別為0.8與0.95。

由此可以得出,灰色樣本的欺詐率為0.5110,灰色樣本中的欺詐個數為(23085*0.5110)11796個,黑色樣本為10580個,最終的欺詐樣本個數(10580+11796)為22376個;結果得出的總體欺詐率為:

5 結語

本文以國內某保險公司車險理賠數據進行關聯規則分析,運用相關的25項特征指標將所有具有明顯欺詐行為特征的頻繁項集全部挖掘出來,最終用于欺詐索賠的識別。

(1)本文基于Apriori算法,對保險公司已知的黑色樣本做出關聯分析,運用算法得出研究所需的13項頻繁項集,接著在白色樣本中對比驗證,結果發現均有效,將所有頻繁項集各項之間的關聯規則進行具體的挖掘,用于灰色樣本部分的欺詐識別。結果顯示,當項集{20,22}、{10,19,20}和{19,20,5}分別出現時,識別的欺詐個數分別為7960、5894和3294,對應的灰色樣本占比分別為34.48%、25.53%和14.72%,灰色樣本預測欺詐結果顯示,在不確定的索賠樣本中約有50%的樣本為欺詐樣本。

(2)灰色樣本最終得出的欺詐率預計結果將直接受到頻繁項集支持度的影響,隨支持度的升高,其預計結果越接近真實的數據,文中將支持度與置信度做出調整(支持度由0.5調至0.8,置信度由0.85調至0.95)后得出灰色樣本欺詐率的預測結果是0.5110,此時計算出的總理賠樣本的欺詐率為37.527%;保監局公布的一些調查數據中顯示,國內的車險欺詐索賠金額占據整個車險索賠金額的30%之多,所以符合車險欺詐的預測范圍。

基金項目:甘肅省教育廳創新能力提升項目(2021B-315)。

參考文獻:

[1]何奇龍,唐煦韓,唐娟紅.基于演化博弈的機動車保險欺詐問題研究[J].保險職業學院學報,2022,36(02):51-59.

[2]張輝. 基于改進Apriori算法的典型民航不安全事件影響因素關聯分析[D].中國民用航空飛行學院,2022.

[3]張碩. 基于數據挖掘的告警關聯規則研究與設計[D].貴州大學,2021.

[4]車險反欺詐聯合課題組.車險欺詐與反欺詐問題研究及監管建議[J].保險研究,2021(06):3-10.

[5]陳秀娟.國內車險欺詐滲漏率達20%[J]. 汽車觀察,2019(7):1.

[6]楊洋.機動車輛保險欺詐風險評估模型構建及其應用研究[D].重慶理工大學,2022.

[7]盧冰潔,李煒卓,那崇寧,牛作堯,陳奎.機器學習模型在車險欺詐檢測的研究進展[J].計算機工程與應用,2022,58(05):34-49.

[8]楚宵瑩.基于機器學習的機動車輛保險的欺詐識別研究[D].山東大學,2021.

猜你喜歡
Apriori算法關聯分析
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關聯分析
玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關聯分析
基于Hadoop平臺的并行DHP數據分析方法
基于隨機函數Petri網的系統動力學關聯分析模型
基于Apriori算法的高校學生成績數據關聯規則挖掘分析
關聯分析技術在學生成績分析中的應用
基于云平臺MapReduce的Apriori算法研究
關聯規則挖掘Apriori算法的一種改進
基于關聯分析的學生活動參與度與高校社團管理實證研究
不同的數據挖掘方法分類對比研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合