?

基于深度學習的多通道多任務學習判決預測模型*

2022-03-02 12:43郭子晨李昆陽婁嘉鵬
北京電子科技學院學報 2022年4期
關鍵詞:法條案情罪名

郭子晨 李昆陽 婁嘉鵬

北京電子科技學院, 北京市 100070

引言

在我國傳統司法領域,裁判文書是由檢察院、法官、律師等專業領域人士的專業問題解答和法院審理過程及結果組成。 對于以往的法律判決,法院只能依靠法律條文,按照司法程序人工的處理各類案件。 但隨著案件數量的爆炸式增長,司法人員的工作負擔大大增加,司法程序周期增加,傳統的人工判決已不能滿足司法需求。

在1987 年,Gardner 等人[1]初步進行了人工智能與司法決策相互融合的研究,并提出了一系列構建規范預測模型的規則要素。 但由于缺乏大規模標注數據集,初期的研究任務主要是圍繞基于知識工程采取手動設計規則的方法展開,用以解決特定場景的法律判決預測任務。

隨著機器學習技術的蓬勃發展,為了更好實現法律智能判決,許多學者將罪名預測和文本分類任務結合。 如Liu 等人[2]使用K 近鄰算法對罪名進行分類;Katz 等人[3]采用隨機樹方法預測美國最高法院的審判;Lin 等人[4]提出了聚焦于中文法律文書的機器學習模型;Sulea 等人[5]基于法國最高法院的案件和判決,開發了基于多個支持向量機的預測集成系統。 上述這些基于機器學習的罪名預測方法,任務可分成特征工程和分類器兩部分,均存在一定缺陷,主要有以下幾點:1)特征工程需要由相關專業人士來設計大量的各領域相關案件特征,工程量龐大而且可移植性較差。 2)這些方法在文本表示上多是采用語義語序缺失的詞袋模型和稀疏高維的TFIDF 等方法,均在特征的表達能力上具有一定局限性。 3)各個方法中所使用的訓練數據集規模相對偏小,因此遇到文書復雜或數據規模大的情況將難以處理。

近年來,隨著神經網絡在自然語言處理各任務上取得重大成果。 研究人員也嘗試借助神經網絡較好的特征抽取能力去提升模型表現,將神經網絡應用于罪名預測。 其中,在針對基于案件事實描述進行罪名預測的研究上,鄧文超等人[6]使用了多種基于深度學習的文本分類方法對罪名預測任務進行實驗;Long 等人[7]將機器閱讀理解方法用于解決民事案件的裁判預測問題;He 等人[8]使用序列增強的膠囊網絡進行低頻罪名的預測;王加偉等人[9]使用層次注意力機制對犯罪事實進行語義差異性建模,并將多標簽罪名預測轉化為單標簽罪名預測問題。 另外,在利用其他輔助信息進行罪名預測的研究中,Luo 等人[10]提出了一個分層的基于注意力的神經網絡框架,使用相關法律條文提高罪名預測的準確性;Hu 等人[11]為罪名標記了屬性信息,面向低頻罪名和易混淆罪名,提出引入區分性屬性的罪名預測;Kang 等人[12]從法條的罪名定義中提取有關規范術語作為案件事實描述的輔助信息;Zhong 等人[13]將司法判決預測中罪名預測、法條預測、刑期預測等不同任務之間的相互依賴關系進行建模,形成一個有向無環圖(DAG),并提出拓撲學習模型以同時提升子任務性能;Yang 等人[14]在拓撲學習模型的基礎上設計了多視角的前向預測和后向驗證框架,以增強子任務之間的依賴性。 最后,針對為罪名預測過程提供解釋的研究,Ye 等人[15]使用融入罪名標簽的Seq2Seq 模型生成具有解釋性的法院觀點;Jang等人[16]采用深度強化學習方法在案情描述中提取判決依據;Liu 等人[17]將罪名預測建模為一個順序決策過程,提出的策略控制模型可以在閱讀文本過程中的某一時刻做出罪名預測并給出裁判依據,使總文本閱讀量減少了30%~40%。

對于法條預測任務,預測模型也隨著神經網絡的發展不斷完善,Luo 等人[18]提出了一種基于注意力機制的神經網絡聯合學習模型,該模型實現了對罪名及法條預測任務進行聯合學習建模;Liu 等人[19]使用文本挖掘方法,實現了為基于日常用語描述的案件尋找相應的法條支持;Liu 等人[20]采用基于實例的分類和內省學習的方法完成法條分類。

綜上,目前的法條和罪名預測研究已經取得顯著進步,但基于法條和罪名的數據分布極其不平衡,而且數據中存在很多易混淆罪名,這對于模型預測效果提升仍是一項重大挑戰。 另外,上述研究大多聚焦于單一任務的處理,而忽略了法條和罪名預測任務間的復雜邏輯關系,這使得罪名預測效果存在準確率瓶頸并缺少法條依據和支持。 因此,結合上述問題,本文針對漢字復雜多義、特征提取粗糙和效率低等問題,構建法條和罪名雙通道模型,引入BERT 預訓練語言模型,提出一種基于深度學習的多通道多任務學習判決預測模型,主要貢獻如下:

1.本文提出并設計了基于多任務學習的罪名及法條預測的整體框架。 整體框架通過雙通道實現,首先在法條預測通道中預測法條結果,并將提取的法條結果送入下游結構輔助罪名預測通道進行預測,罪名預測通道通過拼接案情和法條結果綜合得出罪名結果。 通過雙通道的多任務聯合模型,從多個視角捕捉多個維度的特征向量,獲取更豐富的語義要素,提升判決模型的預測效果和泛化能力。 其中BERT-BA 模型實現對法條的預測,BERT-BABC 模型聯合BERT-BA模型的法條預測結果實現對罪名綜合預測。

2.針對法條預測通道,構建了基于BERT 語言預訓練模型的法條預測模型BERT-BA,該模型在特征提取層采用BiGRU-Attention 進行特征抽取,通過BiGRU 結構實現長文本上下文語義信息的提取和參數規模的縮減,并基于注意力機制實現關鍵特征信息的提取。

3.針對罪名預測通道,構建了基于BERT 模型的雙通道罪名預測模型BERT-BABC,該模型通過BiGRU-Attention 捕捉案情中的犯罪特征,BERT 特征提取器使用自注意力捕捉內部語義特征作為特征補充,實現了多視角的罪名特征信息提取;同時將法條預測通道的結果與罪名預測通道的結果拼接合并,送入卷積神經網絡(Convolutional Neural Networks, CNN)進行深層特征提取,得到罪名分類預測結果,實現了雙通道結合判決預測。

4.使用CAIL2018-Small 數據集進行大規模數據訓練測試實驗,實驗結果表明本文的法條預測模型和罪名預測模型得出的法條及罪名預測結果評價指標高于基線模型,提高了判決預測效果和性能。

1 多通道多任務學習判決預測模型

基于深度學習的判決預測方法主要有兩種類型:第一類是基礎的預測方法,通過結合不同神經網絡針對特定的情境只在案件事實描述的基礎上進行建模,來預測罪名及相應的法條;第二類是運用輔助信息的方法,以罪名預測為例,輔助信息包括法律法條、刑期等信息。 這些方法通常是聯合訓練罪名預測任務和輔助信息相關的任務,可以實現信息共享,進一步豐富所提取的案情特征。

為了增強罪名預測的依據性以及提高罪名判決準確率,本文在案情事實描述建模的基礎上聯合法條輔助信息,建立雙通道模型以從多視角提取不同的案情特征,同時采取BERT 詞嵌入方法將訓練好的詞向量輸送至罪名和法條預測任務中,聚焦于優化提升輔助信息模塊和神經網絡編碼器模塊,提出了一套基于深度學習的罪名及法條預測多任務學習總體框架,其整體框架流程如圖1 所示。 將案情描述分別輸入到罪名預測和法條預測模塊。 在法條預測模型預測案件相關法條,進而提供支持罪名成立的法條依據,然后輸出法條預測結果。 在罪名預測模型,負責接收法條預測相關特征并整合案情描述,經罪名預測模型得到罪名預測結果。

圖1 整體框架流程圖

1.1 法條預測模型

由于漢字的復雜多義性,案情描述的特征提取及詞義表達的準確性會下降,進而影響法條預測模型訓練的效果,為了解決這一問題,本文提出了一種基于BERT 和BiGRU 的法條預測模型[21,22],該法條預測模型的結構由輸入層、特征抽取層和分類預測層三部分組成,如圖2 所示。在法條預測模型中輸入案情描述文本,利用BERT 預訓練模型,獲得包含文本總體信息的動態詞向量,接著將新的詞向量輸入到Bi-GRU 網絡進行特征提取,捕捉案情描述的特征信息,最后引入注意力機制,得到輸入案情的最終法條預測概率表達,選取概率最高的法條即為法條預測結果。

圖2 BERT-BA 模型結構

模型的第一層是輸入層。 由于漢字的數目量級大和多義復雜,本研究使用BERT 中的WordPiece 嵌入模型進行案情描述,以文本中單個漢字進行詞嵌入編碼,大大減少了編碼規模和案情文本的復雜性。 針對于數據集的統計,超過90%的案情描述文本在300 字以下,因此在詞嵌入訓練過程中最大序列長度設置為300 個漢字。在輸入層中,使用了BERT 預訓練語言模型進行了詞嵌入,生成了詞向量,由于文本描述最大范圍為300 個漢字,詞向量xi= {x1,x2,…,x300},xi∈Re。 輸入到BiGRU 對輸入詞向量xi進行正向編碼和反向編碼,編碼方式如公式(1)、(2),生成隱藏向量。 后將進行拼接操作生成隱層向量hi, 融合了上文和下文的語義信息,其可看作案情文本的犯罪特征信息的概覽。

模型的第二層是特征抽取層。 由于本研究的輸入是案情事實文本,屬于篇章文本的量級,而且文本描述的犯罪特征存在著較強的依賴關系,為了更準確的把握文本的依賴關系和提升語義的準確性,本文使用BiGRU 模型提取語義特征,并融入注意力機制(Attention)可以更好地關注和提取關鍵特征信息。

在本研究中,注意力機制實現流程如下:

1. 使用MLP 對Bi-GRU 模型的輸出向量hi做非線性變換,得到中間隱含狀態ui, 如公式(4)所示;

2. 將ui和上下文權重參數向量uc進行相似度計算,在本文中使用余弦相似度計算,得到文本的注意力得分si,如公式(5)所示;

3. 使用Softmax 函數對注意力得分進行數值轉化并歸一化,得到注意力權重αi, 如公式(6)所示;

4. 使用文本向量hi與注意力權重αi進行相乘,得到詞語的加權向量∈Rd,d為隱層向量維度,如公式(7)所示;

5. 將n個hatti拼接成Satt矩陣,得到最終的文本特征矩陣表示Satt,如公式(8)所示。

模型的第三層是分類預測層。 分類預測層的主要任務是構造分類器,獲取案情描述文本相對于法條預測標簽的相對得分,輸出最終的法條標簽結果。 這里使用Softmax 函數對法條標簽進行分類,其數學表示如下:

1.2 罪名預測模型

針對傳統深度學習模型無法學習到詞上下文語義、一詞多義以及模型在訓練過程中可能存在梯度消失或梯度爆炸的現狀,BERT 詞嵌入的動態化表示和BiGRU 的循環結構設計很好的解決了這一問題。 本文聚焦于增強案情語義特征抽取能力,使用BERT 預訓練語言模型作為詞嵌入方法,生成的詞編碼向量輸出至特征提取層的雙通道特征提取器進行特征提取。 其中,BiGRU-Attention 用來捕捉案情犯罪特征,BERT特征提取器則通過自注意力機制捕捉內部語義特征作為特征補充,以此來使模型可以獲得更多的語義信息。 雙通道分別輸出各自視角的特征向量,并將二者生成的詞向量與法條預測模型的法條特征向量進行向量拼接,接著將拼接的文本向量送入下游的CNN 模型進行文本的深層次特征提取和分類,最后得出罪名的預測結果。 其罪名預測模型的結構如圖3 所示。

圖3 BERT-BABC 模型結構

模型的第二層是特征抽取層[23]。 在特征抽取層,BERT-BABC 使用了雙通道模式:BiGRUAttention 作為主特征提取通道,用于捕捉案情描述文書中的犯罪特征;BERT 作為補充特征提取器,使用自注意力機制捕捉內部案情語義特征。

模型的第三層是語義連接層。 語義連接層的主要作用是連接雙通道任務的輸出向量,即連接罪名預測通道的輸出向量和法條預測通道的輸出向量。 為簡化模型計算量,采用行連接的方式進行向量信息特征融合。 具體來說,即連接罪名預測通道中BiGRU-Attention 特征提取器的輸出、BERT 特征提取器的輸出和法條預測通道中BiGRU-Attention 特征提取器的輸出,并構建案情描述文本的整體語義信息向量,如公式(10)所示。

其中S 是整體語義信息向量,Sa代表法條預測通道的BiGRU-Attention 模型輸出的語義信息向量,Sc1代表罪名預測通道中BiGRUAttention 主特征提取器輸出的語義信息向量,Sc2代表罪名預測通道中BERT 輔助特征提取器輸出的語義信息向量。ra、rc1、rc2分別是Sa、Sc1、Sc2向量的行數,c是Sa、Sc1、Sc2向量的列數。

模型的第四層深度提取層。 深度提取層的主要功能是進行局部深度特征提取:在進行多個向量拼接后為防止特征信息混雜,本文采用CNN 對拼接特征向量進行局部的關鍵特征信息提取,主要由卷積、池化和預測三組成。

1.卷積模塊。 對語義連接層的輸出矩陣S進行卷積操作,假設卷積核的大小為w, 即一次卷積對w個相鄰詞向量進行操作,以獲取文本的局部關鍵特征信息,特征的提取表達如(11)所示:

對輸出矩陣S的每一個詞向量進行卷積后,得到文本特征映射y= [y1,y2,…,yn-w+1]。

2.池化模塊。 對y 進行最大池化操作,用于進一步減少模型參數和向量維度,防止過擬合現象。 如公式(12)所示。

其中,T是池化步長,R是池化窗口大小。

3.預測模塊。 對CNN 層的輸出向量進行拼接得到最終的向量,輸入到分類器中進行分類,得到罪名的預測結果。

語義連接層的輸出向量經過CNN 層之后,增強了局部的特征信息,將這些特征信息拼接后進行罪名預測,提高了模型的識別準確率。

2 實驗結果

2.1 實驗環境

本文的實驗環境為Ubuntu16.04 操作系統,Intel Core i7 處理器,NVIDIA RTX2070 顯卡,2TB 硬盤,32GB 內存,開發語言為Python3.6,深度學習框架選擇Pytorch。

2.2 實驗數據集

本研究采用2018 年中國“法研杯”司法人工智能挑戰賽的公開中文數據集CAIL2018[24],該數據集是首個大規模應用于中文法律判決預測的數據集,共包括2676075 刑法法律文書,共涉及183 條罪名,202 條法條,由CAIL2018-Small 和CAIL2018-Large 兩組數據集和一組測試集CAIL2018-Large-test 組成,其中Small 包含19.6 萬條法律文書,Large 包含150 萬條法律文書,其數據全部來自中國裁判文書網上的真實刑事法律文書,標準答案是案件的判決結果。 數據集的詳細分布情況如表1 所示。

表1 CAIL2018 數據集分布

2.3 法條預測實驗

為驗證法條預測模型的有效性,分別設計兩組對比實驗:第一組在輸入層設置對比,使用不同的詞嵌入方法,連接BiGRU-Attention 進行學習訓練,來驗證BERT 詞嵌入的有效性;第二組在特征抽取層設置對比,使用BERT 詞嵌入方法,連接不同的神經網絡模型進行特征提取,來驗證BiGRU-Attention 的有效性。 參數設置如表2 所示。

表2 模型通用參數設置

(1) 輸入層對比實驗

不同輸入層的法條預測實驗結果如表3 所示,由實驗可知,基于BERT 預訓練語言模型的法條預測模型在微平均Fmicro和宏平均Fmacro上均取得最優的效果。 ELMo 和BERT 預訓練語言模型均為動態模型,二者的得分S均全面高于基于Word2Vec 和GloVe 結構的模型。 相比ELMo模型的LSTM 結構,BERT 模型采用了特征提取能力更強的Transformer 結構,并且在大規模專業刑事文書數據上進行了預訓練,微平均Fmicro和宏平均Fmacro均相較ELMo 提升2.22%和2.06%,得分S提升2.14,效果提升顯著。 綜上,使用BERT 預訓練語言模型作為本法條預測模型的輸入層結構有著極為出色的效果。

表3 不同輸入層的法條預測結果

(2) 特征抽取層對比實驗

不同特征抽取層的法條預測結果如表4 所示。 根據上表得出,BiGRU-Attention 結構在微平均Fmicro和得分S均取得最優效果。 對比BA結構和CNN 網絡,由于CNN 對于局部特征的抽取能力上更強,在本數據集上,CNN 結構的預測結果宏平均Fmacro略高于BA 結構;對比BA 結構和LSTM 網絡,BA 結構中加入了雙向信息傳遞和注意力機制,增強了局部特征提取能力,BA結構在所有指標上均高于LSTM 網絡;對比BA和BiGRU 結構,由于加入了注意力機制,BA 結構更有助于提取文本的重點特征信息,在微平均Fmicro和宏平均Fmacro均相較BiGRU 提升3.69%和3.02%,得分S提升3.36,效果提升顯著。 綜上,使用BA 模型作為作為本法條預測模型的特征抽取層結構有著顯著優勢。

表4 不同特征抽取層的法條預測結果

2.4 罪名預測實驗

參數設置如表5 所示。

表5 模型通用參數設置

對常用特征提取基線模型進行比對實驗,實驗結果如表6 所示。

表6 不同特征提取器的罪名預測結果

根據上表的對比實驗結果得出,BERTBABC 模型在微平均Fmicro、宏平均Fmacro和得分S均取得最優效果。 對比BiLSTM、CNN-Attention和DECP,CNN 在局部特征抽取上有著出色的表現,并且融入Attention 機制使得CNN 更能關注到重點特征,BiLSTM 在長距離依賴和梯度消失的優越性未在此訓練集上顯示出來,而融合了CNN 和BiLSTM 各種優勢的DECP 模型在此測試集中表現較好;對比BERT-BABC 和前面三個模型,BERT-BABC 做到了融合RNN、CNN 和擁有自注意力機制的BERT 模型的優勢,在此預測任務上有著出色表現;對比單一的BERT、單一的BiGRU-Attention 和BERT-BABC,雙通道的BERT-BABC 在效果上均優于其中任一單一通道模型,在微平均Fmicro、宏平均Fmacro兩項指標上分別比單BERT 高出0.32%、 1.12%, 比單BiGRU-Attention 高出2.21%、2.48%,得分S分別高出0.72、2.34,效果出色。 綜上,使用BERT和BiGRU-Attention 雙通道特征抽取模型作為本罪名預測模型的信息提取層結構有著極佳的效果。

3 結束語

本文使用2018 年中國“法研杯”司法人工智能挑戰賽的公開中文數據集CAIL2018,采用深度學習方法對罪名及法條預測展開分析與設計建模,旨在完成更好的法條和罪名決策。 針對目前模型決策準確率存在瓶頸、神經網絡編碼視角單一等問題,從犯罪案情描述特征、內部語義特征和法條輔助信息這三個角度進行編碼建模,提出了一種基于深度學習的多通道多任務學習判決預測模型,而且罪名的判決是基于法條的,考慮了兩個任務的相關性。 結果發現,本文方法在決策效果上取得較好的成績。 但因為本研究針對的是單人單罪的案件,在現實世界中還存在著多主體犯罪的案件,且多主體犯罪案件缺少數據集。 因此未來可以在多主體犯罪場景的司法文書數據集的構建以及判決預測模型方案的設計上進一步展開探索。

猜你喜歡
法條案情罪名
凌晨“案情”
是誰下的毒
旺角暴亂,兩人被判暴動罪
從法條的公司法到實踐的公司法
從法條的公司法到實踐的公司法
論民法對人身權的保護
刑法罪名群論綱*
從法條的公司法到實踐的公司法
重新認識濫用職權和玩忽職守的關系*——兼論《刑法》第397條的結構與罪名
減少死刑的立法路線圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合