?

基于圖卷積神經網絡的醫保欺詐檢測算法

2020-06-07 07:06易東義鄧根強董超雄祝苗苗呂周平朱歲松
計算機應用 2020年5期
關鍵詞:關系網欺詐卷積

易東義,鄧根強,董超雄,祝苗苗,呂周平,朱歲松

(華中科技大學協和深圳醫院,廣東深圳518060)

(?通信作者電子郵箱denggenqiang@qq.com)

0 引言

近些年,隨著人民生活水平不斷提高,中國基本醫療保險參與人數已經達到13.5億人,參保率超過了95%,醫療支出費用從2008年的1.45萬億增長到2015年的4.10萬億,年均增長率達16%,遠遠超過我國國內生產總值(Gross Domestic Product,GDP)同期增長率[1],其中很重要的一個原因就是醫保欺詐、資源浪費和藥物濫用(Fraud-Waste-Abuse,FWA)。根據聯邦調查局估計,在美國每年欺詐占醫療保險的3%~10%(大約占190~650億美元)[2]。隨著人口老年化加劇,FWA情況愈演愈烈。根據醫療機構的報告,2012年美國FWA總費用為750億美元[3-4]。在國內,2017年,僅四川省公布的56件醫保欺詐案件中,“11.28”特大騙保案件就涉及5400余萬元;2018年“沈陽騙保案”轟動一時,主要涉事人員40余人,給國家帶來巨大的損失。與此同時,傳統的欺詐檢測依靠專家調查,這會產生大量的時間成本和人力成本。根據案件難易程度每次調查的費用在200~20 000美元[4]。此外,隨著醫療保險數據的爆炸性增長,領域專家人數無法滿足現有欺詐案例篩查的需要。因此,醫保欺詐方面有必要投入研究,盡早地發現、預防甚至杜絕醫療保險欺詐的發生。

現有的自動醫保欺詐檢測方法分為兩個研究方向[5-6]:無監督學習和有監督學習?;跓o監督學習[7-9]的欺詐檢測方法非常依賴數據的分布,其特點是尋找離群點作為欺詐點,但是這種方法非常不適合偏移的數據集,比如醫療保險數據集[10]。 Zhang 等[9]提 出 了 imLOF(improved Local Outlier Factor)局部異常檢測算法,將局部異常點作為欺詐點。另一方面,監督學習方法[11-14]需要大量的標簽數據才可以取得較好的預測模型,在實際醫保欺詐數據中,非欺詐的數據并沒有作記錄,且只有較少的欺詐數據(調查昂貴、患者隱私保護)。Bauder等[11]在不平衡的數據上使用了隨機森林作為分類器。Pandey等[14]提出了基于規則的計分系統、邏輯回歸模型和決策樹等模型,都依賴于大量的訓練數據樣本。

為了解決數據稀少、數據不平衡和數據標注昂貴的問題,本文從以下3個方面研究:1)增加關系信息。雖然獲取到欺詐的數據樣本稀少,但是病人和醫生之間的診療記錄都有很好的保存。直觀地講,如果模型建立得適當,用病人和醫生之間的關系應該可以提高欺詐檢測的性能。2)貝葉斯方法。小數據通常都是在貝葉斯框架下建模,它可以使用先驗分布的合理假設,將小數據中包含的信息傳播給后驗概率。3)提高數據質量。由于成本的限制,醫療欺詐調查的數量通常是有限制的,因此提高欺詐標識的質量就顯得尤為重要。

本文的主要貢獻如下:

1)提出了一種新的基于關系的變分自編碼模型,可以使用病人和醫生的關系結構來改善小數據集中的醫療欺詐自動檢測,即使數據集只包含一類欺詐標簽也可以訓練。

2)提出了一種新的主動學習策略,該策略結合了基于圖卷積和變分自編碼的單分類醫保欺詐檢測模型(One-Class medical insurance fraud detection model based on Graph convolution and Variational Auto-Encoder,OCGVAE),在保持預測性能的同時,減少了領域專家進行醫療欺詐調查的次數。

3)在一個真實的醫療欺詐數據集上對所提算法進行了測試,實驗結果表明,本文方法優于目前最先進的方法。

1 醫保欺詐檢測系統框架

1.1 病人-醫生關系網建模

查詢病人的就診訪問記錄,構建病人-醫生網絡,該網絡可以表示為一個無向圖G ?(V,?,W),其中|V|=n是醫生與病人節點數目,?是節點之間的連接關系,對于任何一個節點v∈V與其他節點的關系ei∈?,其權重值為wi∈W。所有節點的特征向量組合成一個特征矩陣X,節點之間的權重信息可以使用鄰接矩陣A存儲,為了方便閱讀,將本文中的符號收集如表1,接下來將描述如何將病人-醫生關系圖集成到一個深層神經網絡來執行有效的推理。

圖1展示了患者的藥品購買記錄和醫療欺詐樣本的病人-醫生網絡。如圖1所示,欺詐樣本連接起來形成一個集群。事實上,現有的圖形分析方法[15-17]已經表明,關系信息對于檢測醫療欺詐是有用的,但是,這些方法是無監督的,而且是為特定的醫療系統設計的,例如假設可以從醫生、病人和藥店獲得詳細的關系信息[16]。相比之下,本文使用一組小型的一類欺詐標簽對病人-醫生網絡進行建模,以實現準確的醫療欺詐檢測。

圖1 病人-醫生關系網Fig.1 Patient-doctor relational network

表1 符號表Tab.1 Label table

1.2 醫保欺詐檢測框架

本文的欺詐檢測框架如圖2所示,提出了基于圖卷積和變分自編碼的單分類欺詐檢測框架(OCGVAE)。

圖2 醫保欺詐檢測框架Fig.2 Architectureof medical insurancefraud detection

OCGVAE主要由3個模塊組成,每個模塊都有重要的作用并且相互關聯??蚣艿牡?個模塊是圖卷積神經網絡(Graph Convolutional neural Network,GCN),它是連接數據特征和病人-醫生關系網絡的關鍵樞紐。它包含輸入層和兩個隱藏層,第二個隱藏層有兩個并行結構,它們共享第一層參數。第2個模塊是變分自動編碼器(Variational Auto-Encoder,VAE),其輸入是GCN的輸出,一個輸出是平均向量,另一個是標準偏差向量,它們構成了隱藏變量的分布。最后的模塊是關于框架的輸出,在本文提出的架構中,節點的標簽和節點之間的鏈接可以被預測。

1.3 圖卷積神經網絡

在機器學習領域,卷積神經網絡(Convolutional Neural Network,CNN)模型取得了令人矚目的成績,但是,CNN不適合醫保欺詐的場景,因為傳統的CNN模型只適用在歐幾里得空間上,而病人-醫生關系網絡是一個圖結構的數據。為了解決這個問題,本文使用了圖卷積方案(GCN),它可以在圖譜領域處理圖結構數據[18-19]。

定義一個圖卷積操作*G,給定一個參數為θ∈Rn的過濾器Fθ?diag(θ)和一個輸入信號x∈Rn,卷積操作可以定義為:其中:U∈Rn×n是拉普拉斯矩陣L特征向量組成的矩陣,即其中I n是單位矩陣,A和D是圖G的鄰接矩陣和度矩陣,Λ是一個對角矩陣,其對角線上的值是矩陣L的特征值。

1.4 高效的圖卷積神經網絡

雖然GCN適合用于醫患網絡模型,但計算復雜度仍然是一個問題。式(1)需要的時間復雜度是O(n2),其中n是節點個數。二次時間復雜度說明了在人數較多時,GCN不能有效地工作。為了解決這個問題,文獻[18-19]提出了兩個近似計算,將時間復雜度降到線性關系。

1)切比雪夫多項式近似[18]。

其中:S(?)是激活函數,H(l)和W(l)是第l層的激活矩陣和參數,H(0)=X。

1.5 基于變分的自動編碼關系模型

OCGVAE的理論模型為:

其中X和A是對應病人-醫生關系網的特征矩陣和鄰接矩陣。為了利用好病人-醫生關系網信息,將潛在變量z的變分參數定 義 為 GCN 模 型 :其 中μ?GCNμ(X,A;Wμ)和lbσ?GCNσ(X,A,Wσ)。

生成模型的定義:

以上兩個式子定義為:p(Aij=1|z i,z j)?S(z iTz j),p(yi=1|z i)?S(W l z i+b),其中W l是邏輯回歸因子,b是偏置項,只有極少數的m?n是標記為欺詐的節點。

上述的參數Wμ、Wσ、W l都可以使用變分下界函數優化:

2 醫保欺詐調查

主動學習策略[20-22]已經成功地應用于數據標注,特別是在標記數據點非常昂貴和/或費時的情況下,這種技術允許用最少的標簽實現模型的預測準確性。本文提出的OCGVAE可以借助主動學習,更好地進行欺詐調查,其關鍵思想是調查最不確定的案件,以便OCGVAE進行分類:

其中:yv是節點v的標簽,?[]?是分布的熵,節點v的熵值由以下計算得到:

后驗分布p(yv|A,X,y)由以下推出:

通過式(12)計算熵值選擇出最不確定的節點給專家做案件調查。

3 實驗和結果

3.1 數據集

本文所使用的醫保欺詐數據來自于深圳市某醫院2015年患者就診數據,包含了120萬的訪問記錄,40萬就診患者,1242名醫生。由于有限的計算資源,從中選擇了一個較合理的數據子集,篩選的條件如下,20<年齡<70,總支付>800,總數量>16,最高價格>35,頻次>1,自費<300,最低價格>15。

經過篩選后,用于實驗的數據集有34192名患者和1 095名醫生,包含138個欺詐患者的912次就診信息,其數據特征如表2所示。

利用患者就診記錄(表2)建立節點特征矩陣X,將性別、年齡、保險類型、就診次數、年費、年購藥量等不變量直接復制到特征矩陣中。計算2015年期間個人就診記錄的屬性平均值,包括最高單價、最低單價、天數、數量、自費和總金額。上述特性僅用于指定每個病人節點,而醫生節點中的對應節點則保留為一些虛擬值。醫保欺詐發生時,起著關鍵作用是病人的特征,而不是醫生。

為了建立病人和醫生之間的關系結構,本文使用一個簡單的啟發式算法對病人-醫生圖G中的邊進行加權。定義邊ei∈?是節點(u,v)的連接關系,定義wi∈W是邊ei的權重。如果u、v是同類型的,wi=0,否則,wi是病人訪問醫生的次數。

表2 病人就診記錄描述Tab.2 Description of patient visit records

3.2 實驗設計

在GCN結構中,第一層和第二層分別有32個和16個隱藏單元,為防止過擬合,設置dropout為0.5,學習率為0.01,隱藏變量z i的維度是16。實驗采取了4折交叉驗證,結果平均超過100次隨機實驗,該模型采用精確度、查全率、準確率和F1分數等多個指標進行性能評價。

3.3 OCGVAE實驗結果

表3顯示了在真實世界的醫療數據集上醫療保險欺詐檢測的結果。實驗比較了兩類算法在有無病人-醫生關系網情況下的性能。在所有性能指標中,本文提出的模型能夠獲得最優的性能指標,這說明病人-醫生關系網在欺詐檢測當中有著很重要的作用??偟膩碚f,在病人-醫生網絡中工作的方法比其他方法表現更好,這表明醫患網絡可以提供額外的有用信息,提高欺詐檢測的性能。OCGVAE的性能明顯優于Semi-GCN(在三個指標上比Semi-GCN高15%~20%),原因是變分的AutoEncoder框架可以解決由于一個小的單類標記數據集引起的過擬合問題。

為了解釋所提出的OCGVAE所引起的改進,圖3將二維空間中的數據可視化,構建了一個由138個欺詐節點和300個隨機選擇的未標記節點組成的小數據集。圖3(a)僅使用節點特征,用無監督的降維方法T-SNE[37]可視化節點;圖3(b)通過在OCGVAE模型中將潛變量z i的維數設置為2來可視化數據。

圖3 使用T-SNE和OCGVAE的醫療保險數據的可視化Fig.3 Visualization of medical insurance fraud dataset based on T-SNE and OCGVAE

可以看到,圖3(a)數據點是混合的,難以分離欺詐數據和未標記的點;圖3(b)表明兩種數據點在潛在空間z中可以更好地分離,因此,使用OCGVAE模型可以更容易地學習分類邊界。

表3 使用關系網與不使用關系網各算法在真實數據上檢測性能的比較Tab.3 Detection performancecomparison of different algorithmson real datawith or without relational network

3.4 主動學習實驗結果

為了顯示主動欺詐調查的成本效益,本文比較了以下三種策略的性能。

最大熵(MaxEnt)策略 它使用預測熵來度量未標記點的不確定性;然后,選擇MaxEnt前k個未標記數據點進行欺詐調查。

最大概率(MaxProb)策略 與MaxEnt不同,直接在欺詐預測中選擇概率最高的前k個數據點。

隨機(Random)策略 在未標記的樣本中隨機選取k個數據點做調查。

如圖4所示,在不同的學習率和分類閾值設置下(學習率和分類閾值作為超參數,可以由經驗設置),MaxEnt策略在所有4個性能指標中都優于其他兩個策略(由于篇幅限制,只畫出了F1值和準確率)。隨機策略表現最差,這意味著常規的自動檢測欺詐的做法非常低效。當設置適當的學習率和分類閾值(例如,學習率a為 0.01,閾值t為 0.8)時,MaxEnt和MaxProb可以獲得相近的性能。在所有設置中,MaxEnt策略比MaxProb策略執行得更穩定。因此,在現實場景中部署主動欺詐調查時,MaxEnt策略是一個更好的選擇。

在圖5中,顯示了隨著欺詐標簽數據增多的性能變化趨勢。結果表明,使用兩個分類閾值:0.5和0.8,MaxEnt方法均可以較快地收斂(由于篇幅限制,只畫出了F1值曲線)。

圖4 OCGVAE中主動學習策略在不同學習率和分類閾值下的性能比較Fig.4 Performancecomparison of active learningstrategiesin OCGVAEwith different learningratesand classification thresholds

圖5 不同分類閾值t下OCGVAE中主動學習策略的收斂曲線Fig.5 Convergence curves of active learning strategies in OCGVAE with different classification thresholds t

4 結語

本文著重于研究一個自動醫療欺詐檢測框架。該框架的主要特點是:1)能自動偵測進行醫療詐騙活動的可疑病人;2)能協助領域專家進行具有成本效益的醫療詐騙調查。這依賴于本文提出的一種新穎的基于變分自動編碼器的關系模型,它可以同時利用病人-醫生網絡和一類欺詐標簽,來改善欺詐檢測和欺詐調查任務。與一類對抗神經網絡(OCAN)、一類高斯過程(OCGP)、一類近鄰(OCNN)、一類支持向量機(OCSVM)和半監督圖卷積神經網絡(Semi-GCN)算法相比,準確率分別高出16.1%、70.2%、31.7%、36.5%和27.6%。但是,隨著患者人群的增大,該框架對計算機的計算資源的要求也會劇增。在未來的工作中,將考慮如何解決這個問題。

猜你喜歡
關系網欺詐卷積
基于全卷積神經網絡的豬背膘厚快速準確測定
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
新車售前維修未告知消費者是否構成欺詐
歐洲網絡犯罪:犯罪類型及比例
防范信用卡申請業務欺詐風險的中美對比
反欺詐:要防患于未然
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合