?

融入法因層次結構的法因預測IHLCP模型

2024-03-26 02:39黃思嘉彭艷兵
中文信息學報 2024年1期
關鍵詞:解釋性層次結構罪名

黃思嘉,彭艷兵

(1. 武漢郵電科學研究院,湖北 武漢 430074;2. 南京烽火天地通信科技有限公司,江蘇 南京 210019)

0 引言

法律領域是一個由大量數據積累的領域,非常適合運用由數據驅動的各項人工智能技術。與金融、醫療等其他垂直領域相比,法律文書擁有高質量的文本信息,不僅表述嚴謹規范,且具有豐富的數據支撐。按照訴訟性質的不同,法律文書可以分為兩類: 刑事案件文書和民事案件文書?;谶@些法律文書,本文將法官判決結果作為標準答案,將案情事實描述作為訓練樣例,期望以數據驅動的方法學習法律體系的相關信息,以形成一套較為有效的自動判決預測系統。

智能法因預測的目的是根據案情事實描述預測刑事案件的罪名或民事案件的糾紛類型。其作為法律自動判決體系的一項代表性工作,有望推動諸如自動量刑、智能法官助理、案情關系網絡構建等一系列現實應用。但目前這一工作并不樂觀,表現如下:

(1) 基于民事案件的研究較少。由于民事案情較刑事案件更為復雜多樣,判決結果無法簡單地用分類或回歸建模,因此現有的工作主要集中在對刑事案件的研究上,基于民事案件的研究相對較少。

(2) 一些低頻、易混淆法因難以預測。本文針對中國裁判文書網(1)https://wenshu.court.gov.cn/中的刑事和民事數據集的分布情況進行了統計分析,分析結果如圖1所示??梢钥闯?該分布是典型的長尾分布,極少數法因標簽具有較高的數據量,而大部分法因標簽數據量較少。這種極不平衡的分布現象使得預測低頻類別變得十分困難。

圖1 刑事、民事數據分布統計圖

現有的預測系統針對高頻類別能夠充分發揮作用,但對于低頻類別的處理效果并不理想,而且案件事實描述部分存在著許多極為相似的易混淆原因對。例如,在我國刑事案件語境中,采用模型區分“強迫他人吸毒罪”和“容留他人吸毒罪”的關鍵,是能否從事實描述中確定被告在他人吸食、注射毒品時是否存在暴力脅迫行為,而該工作需要基于文本的語義差異性進行建模。

(3) 案情事實描述存在數罪并罰問題。由于犯罪嫌疑人在一條案例中可能存在多種指控,因此法因預測并非簡單的單標簽分類任務,案情事實描述中也存在著部分數罪并罰問題,需要作多標簽分類處理。Boutel等人[1]指出目前主流的多標簽文本分類方法,主要包括: 標簽 powerset、分類器鏈和二元關聯策略。其中,標簽powerset是通過額外添加預測類別的方式將每一組共現的標簽組合歸一為一種新類別。分類器鏈方法則適用于標簽之間存在特定關聯的場景(總分、承接關系等),這種作法是將上層分類器的預測結果鏈入后層分類器以實現關聯性的多標簽分類方法。二元關聯策略則是將多標簽中的每一個標簽拆分為一個單獨類別,并對每個類別進行二元分類?;谶@些多標簽的學習算法,我們可以將數罪并罰問題進行轉化。

(4) 現有模型可解釋性差?,F有的法律文書自動研判模型已經具有良好的性能,但模型的判斷過程難以解釋,結果并不可靠。這種不可解釋性使得法律自動判研系統難以為法律專業人士提供良好的技術支撐,從而影響系統的實際應用。

圖2為部分法因層次結構示意圖。從圖2可知,無論是刑事罪名還是民事糾紛類型,都存在著顯著的層次依賴關系。這種層次結構能夠為各種法因提供有效的信息,特別是對于那些低頻、易混淆類別而言,每個葉子節點(法因),都有唯一一條路徑將其與根節點(案情描述)連接起來。因此本文借鑒多標簽分類問題的分類器鏈思想來進行法因預測,并將法因的外部層次依賴關系作為模型可解釋性的來源,在預測法因路徑的過程中通過父法因來區分低頻、易混淆法因。

圖2 部分法因層次結構示意圖

此外,法律領域的法因通常十分明確,它們的每一個名稱可以被視為對某類案例準確和精煉的描述。而這種關鍵的文本信息可以被用來過濾掉事實描述中的噪聲信息,僅保留影響判決結果的關鍵部分,為準確預測提供可能。然而,現有的分類模型只是將每個法因視為一個分類標簽,而忽略了其名稱中隱含的內部信息,具有不可靠性。

需要說明的是,數罪并罰任務屬于多標簽分類問題,會增加模型預測的難度,故本文將該任務作為后續工作的研究方向,在本文中不做深入討論。

總之,本文針對法律智能體系的現狀提出了IHLCP模型,該模型融入了法因的外部層次依賴關系,在提升模型可解釋性的同時,基于內部文本信息對法因進行預測,期望打破自動判決預測系統在低頻易混淆法因預測上的瓶頸。具體來說,本文將法因路徑作為模型可解釋性的來源,將每個法因轉換為從根節點到葉子節點的路徑,提出了一個基于內部文本注意的Seq2Seq模型,并通過事實描述的語義差異性來預測法因路徑。

1 相關工作

1.1 少樣本學習

目前主流的傳統深度學習模型需要大量的數據進行支撐,而少樣本學習的提出則是為了解決缺少足夠多訓練數據的特定場景問題。少樣本學習主要有兩種方法,一種是構建網絡結構或圖結構。借鑒人眼可以自動提取物體特征并進行比較學習的思想,Sung等人[2]提出了一種關系網絡來將嵌入單元和關系單元進行聯合比較,并根據比較的結果判斷測試數據所屬的類別。另一種是增加額外的附加信息,如 Hu 等人[3]通過引入一些罪名的區分屬性(盈利、買賣行為、死亡情節、暴力行為等)作為事實描述到罪名之間的內部映射來捕捉與特定屬性相關的關鍵事實信息,進行低頻罪名預測任務。

近年來,諸如 BERT[4]、XLNet[5]等各種預訓練語言模型的出現,使得我們可以憑借大規模的外部知識或數據在無標注數據上進行學習。

1.2 罪名預測任務

深度學習技術的快速發展,使得各種神經網絡模型在NLP 任務中表現出了良好的性能。

Luo等人[6]將罪名預測任務和相關法條提取任務用一個統一的框架進行建模。該模型采用一個兩階段式的注意力機制從案件事實描述預測相關法律條款,并進一步預測罪名,通過使用一系列注意力組件來建模單詞和句子之間的相關性,從而捕捉整個案件的重要細節。Hu 等人[3]引入了一些罪名的區分屬性作為事實描述到罪名的內部映射,并將這些屬性感知表示與無屬性表示相結合,以預測最終罪名。

受這些工作的啟發,本文在模型中引入了刑法和民法體系中所有法因的依賴結構,這種直接的層次依賴關系能夠緩解刑法和民法數據分布不平衡的現象,并有助于區分不同父節點下的易混淆法因。同時由于Seq2Seq模型在層次化依賴建模方面的優勢,本文利用法因的名稱作為注意的Query值,達到逐級過濾實際描述中噪聲信息的效果。

1.3 模型可解釋性

可解釋性是指模型解釋其預測的能力,目前已經引起了越來越多的關注。Hendricks等人[7]將解釋的概念分為自省解釋和正當解釋。

所謂自省解釋,即解釋模型如何確定其最終輸出??紤]到罪名和法條之間的高度相關性,Luo等人[6]將該次預測相關的法條視為對罪名預測的一種解釋性,采用事實和法條之間的注意力機制進行罪名預測。另外一種內省解釋為定罪要素,通過標注事實描述中的定罪要素作為判決的中間結果,也能夠起到解釋最終判決結果的作用。Zhong等人[8]基于無罪推論和要素審判原則,對定罪要素進行預測,并直接基于要素預測結果進行罪名預測,使整個系統更具透明性和可解釋性。

所謂正當解釋,則是通過生成一些句子,作為支撐系統預測結果的相關依據。Ye等人[9]將庭審意見作為罪名預測的解釋性來源,使用Seq2Seq模型,根據案件的事實描述和給定的罪名標簽來生成庭審意見。

本文將罪名之間的層次依賴關系作為模型可解釋性的來源,通過預測法因路徑來提升模型的可解釋性。

2 IHLCP法因預測系統

本節首先給出法因預測的任務定義,再詳細介紹本文提出的IHLCP模型。

2.1 任務定義

本文維護了刑事和民事法律文書的詞表V,及層次結構中所有法因的集合Y。定義輸入的案情事實描述序列X={x1,…,xm,…,xM},其中xm∈V。

如圖2所示,將待預測法因沿外部層次結構,轉化為從根節點到葉子節點的路徑,即法因序列y={y1,…,yi,…,yI} ,其中,yi∈Y。定義每個法因yi的簡短描述為nyi={x1,…,xl,…,xLy},用于過濾事實描述中的噪聲信息。

綜上所述,模型定義法因序列y的預測概率如式(1)所示。

(1)

如圖3所示,IHLCP模型由事實編碼器和法因預測器兩部分組成。事實編碼器負責將案情事實描述X進行編碼,法因預測器則按照法因的層次結構解碼出法因序列y,本文將在接下來的部分進行詳細介紹。

圖3 IHLCP模型流程示意圖

2.2 事實編碼器

由于案情事實描述文檔包含較長的文本,且文本上下文之間關聯性較強,本文在事實編碼器部分采用改進的XLNet-DPCNN模型,將事實描述的詞序列進行編碼,作為法因預測器的輸入。

其中,XLNet[5]模型采用了Transformer-XL[10]進行編碼。相較于Transformer[11]模型,Transformer-XL的段循環機制[10]和相對位置編碼[10]策略使得模型更具上下文語義相關性,且具有更低的評估代價。XLNet 模型使用了雙流自注意力機制[5]和段緩存機制[5]來建模,以應對更長的距離依賴,打破了BERT模型無法有效處理超長文本的弊端。

DPCNN[12]模型則通過不斷交替卷積層和下采樣層來使模型在加深網絡層次的過程中捕獲更多全局信息。DPCNN模型采用了Region Embedding[12]的詞嵌入方法,該方法類似于Text-CNN[13],是對一個文本區域段進行多尺度卷積的結果。但Region Embedding無法充分理解語義,當把詞壓縮到低維稠密的語義空間之后,相似意義的詞會出現共線問題,即擁有相同的詞向量。因此本設計采用XLNet模型生成詞向量來替代DPCNN模型中原有的Region Embedding詞向量。

網絡層次的不斷加深,會使模型的整體分布逐漸向激活函數不敏感的區域靠近。而把每一層神經元的激活值作批標準化BN[14]處理,能夠使模型保留更多的信息,有效避免梯度消失現象,加快模型訓練速度。因此本文在 DPCNN 模型的每一個 Block 中引入一層BN[14]來加速模型的收斂過程,使模型訓練更加穩定。

DPCNN原模型中采用了ReLU[15]激活函數,與sigmoid等激活函數相比,ReLU[15]收斂更快,能夠在一定程度上能夠緩解梯度消失和過擬合現象,如式(2)所示。

fReLU(x)=max(0,x)

(2)

由式(2)可以看出,ReLU的輸出均為非負值,當參數初始化不當時,可能會導致訓練過程中某些神經元無法被激活,相應參數無法被更新的結果。

為了解決ReLU激活函數的弊端,本文在DPCNN模型中采用 Mish 激活函數[16],如式(3)所示。

fMish(x)=x·thanh(ln(1+ex))

(3)

與ReLU激活函數相比,Mish 激活函數理論上對負值有輕微允許,這種相對平滑的激活函數允許更好的信息進入神經網絡,從而提升模型的準確性和泛化能力。隨著網絡層數的加深,ReLU的精度會迅速下降,而Mish 激活函數仍然能夠保持良好性能[16]。

圖4 事實編碼器模型架構圖

(4)

然后采用等長卷積[12]生成特征,設卷積核W∈Rkf×(w×k),偏置b∈Rkf,其中kf為濾波器大小,w為濾波器寬度,fMish代表使用Mish激活函數進行非線性激活,則詞向量Xi: i+w-1產生的特征vi如式(5)所示。

vi=fMish(W·Xi: i+w-1+b)

(5)

h0,j=max(v1,j,…,vM,j), ?j∈[1,kf]

(6)

hf,j=mean(v1,j,…,vM,j), ?j∈[1,kf]

(7)

2.3 法因預測器

本模塊基于seq2seq[17]模型的解碼器進行法因預測,并在其中加入注意力機制,模型結構如圖5所示。

圖5 法因預測器模型架構圖

時間步i中LSTM單元的輸入由兩部分組成: 法因表示yi和法因感知事實表示ci。其中,法因表示yi是法因名稱nyi的表示,由上一時間步預測得到的法因編碼得到,如式(8)所示。

yi=vec(nyi)

(8)

其中,U、W0、W1和b均為訓練參數,則法因感知事實表示ci如式(11)所示。

(11)

同時為了保證預測的法因序列與法因的層次結構一致,本文借鑒Teacher Forcing[19]的思想,采用mask分類來限制模型的預測范圍。對于每一時間步中解碼器單元的輸出hi,本文使用一個權重共享全連接層將其映射到法因空間。對于法因yi,若其不是yi-1的子節點,將被mask到負無窮。因此,在Softmax操作后,這些不符合法因層次依賴關系的法因的概率將為0。這意味著當前預測范圍中的法因必須是之前預測法因的子節點。該操作可以形式化為式(12)、式(13)所示。

p(yi|y1: i-1,x)=Softmax(Mask(Wphi+bp,yi-1))

(12)

(13)

其中,Wp和bp為全連接層參數,π(y)代表y的父法因。

綜上,本模塊在法因預測器部分采用法因類型作為注意的Query值來過濾事實描述中的噪聲信息,并引入了法因之間的層次依賴關系,來有效解決由于標簽數據長尾分布導致的數據不平衡問題,同時來區分那些事實描述部分極為相似卻位于不同父節點下的易混淆法因。

2.4 模型訓練

由于刑法和民法體系數據分布極不平衡,本文在Sequence Loss[17]中結合了焦點損失[20]的思想,訓練目標是最小化待預測的法因序列與真實值之間的損失,損失函數如式(14)所示。

(14)

3 實驗與分析

為了證明本文提出的IHLCP模型的有效性,本文在幾個刑事和民事數據集上進行了實驗。

3.1 數據集構建

針對我國公開發布的刑事法律文書和民事法律文書搜集整理了3個大規模數據集: CAIL[21]、FSC[3]和CIVIL。其中,CAIL[21]是我國第一個用于判決預測的大規模法律競賽數據集。FSC[3]是Hu等人構建的側重于對我國刑法數據集中的低頻易混淆罪名學習的數據集。CIVIL數據集是從中國裁判文書網上收集的民法數據集。

基于中國裁判文書網中公布的刑事罪名和民事糾紛的層次結構,本文維護了刑事案件和民事案件的法因序列分布。三種數據集的具體細節見表1。

表1 刑事/民事數據集細節統計表

其中父節點為葉子節點的概括性法因。由于本設計不對數罪并罰問題作深入研究,本文在所有數據集中過濾掉這些案件,以便專注探索法因之間的層次關系對于模型性能的影響。

3.2 基線模型

為了驗證模型的有效性,本文設計了三種類型的基線:

經典文本分類模型: Text-CNN[13]、LSTM-attention、DPCNN[12]、HAN[22]、FastText[23];

經典序列生成模型: seq2seq[17];

LJP任務的前期工作: Fact-Law Attention (FACT)[6]、 Attribute charge (ATCH)[3]。

3.3 實驗設置

對于IHLCP模型,本文在三個數據集中統一使用XLNet模型的SentencePiece[24]方法進行切詞。由于FSC[3]數據集中包含了詞嵌入文檔,本文在該數據集的基線模型中嚴格按照該模型上的實驗設置進行實驗,以得到和該模型相似的效果。對于其他數據集的其他基線模型,我們統一使用THULAC分詞器(2)http://thulac.thunlp.org/進行分詞。

我們將所有LSTM單元的隱藏大小設置為256,對于IHLCP模型,設置DPCNN單元卷積核大小為3,步長為2,集束寬度為5,焦點損失函數的γ值為2。

在訓練階段,我們統一使用Adam作為優化器,文檔的最大長度設置為500字,初始學習率設置為0.001。批大小設置為256,drop out rate設置為0.5,最大迭代次數設置為100,并使用早停策略以防止模型過擬合。同時本文通過復制部分低頻法因樣本并向其中加入隨機噪聲的形式對數據進行過采樣,并采用加權隨機采樣算法對數據進行重采樣來緩解數據分布的不平衡現象。

本文使用準確率(ACC)、宏觀精度(MP)、宏觀召回率(MR)和宏觀F1值(F1)作為評價指標。

3.4 結果分析

通過跟蹤法因層次結構,我們可以將所有模型的輸出轉換為法因序列。因此,我們能夠在不同層次上比較HLCP模型和基線模型的性能。

如表2所示,本文比較了IHLCP模型和基線模型在驗證集上的性能(“*”代表模型不適用該數據集,“-”代表模型在最大迭代次數內無法收斂),我們發現: IHLCP模型在所有數據集上的性能均顯著優于基線模型,證明了該模型的魯棒性和實用性。

表2 模型效果對比表 (單位: %)

其中,模型在包含最多父因的CIVIL數據集中的ACC和F1值分別提升了6.6%和12.3%,在數據分布極不平衡的CAIL數據集中,ACC和F1值分別提升了3.5%和13.4%。同時我們可以看出,模型在FSC數據集上相較于需要人為設計罪名屬性的ATCH模型的F1值提高4.2%,證明了該模型在利用法因之間的層次依賴關系和內部的文本信息來應對數據分布不平衡導致的低頻、易混淆法因難以預測的問題上具有一定效果。

為了更為直觀地說明IHLCP模型對于低頻法因的預測性能,本文根據法因類別的樣本數據量將CAIL數據集中的刑事罪名和CIVIL數據集中的民事糾紛類型分別劃分為低頻、中頻和高頻三個等級,在驗證集中測試模型的MP值和F1值。實驗結果如表3所示。

表3 不同類別的模型效果對比表 (單位: %)

由表3可以看出,刑事和民事樣本數據分布不均衡,會導致低頻法因類別特征難以學習,檢測性能較低。IHLCP模型相較于其他基線模型,在高頻和中頻法因預測上的效果提升不太明顯,但在低頻法因預測上得到了顯著提升,由此可以看出IHLCP模型能夠有效應對數據分布不平衡導致的低頻法因難以預測的問題。

同時,為了驗證IHLCP模型引入的法因層次結構的合理性,本文對于待預測法因序列的后4層法因預測的性能進行了實驗,其中第4層法因即為子法因(葉子節點),1~3層法因是子法因的父法因(父節點),實驗結果見表4。

表4 IHLCP模型法因序列預測性能評估表 (單位: %)

由表4可以看出,IHLCP模型在集束搜索的過程中,根據法因的層次依賴關系,采用Softmax分類的方式使模型在每個時間步都能便捷地找到條件概率分布最大的候選路徑。同時,法因的層次依賴結構作為模型的正當解釋,使得預測結果更具說服力。

3.5 個案研究

為了直觀地說明IHLCP模型的層次結構在易混淆法因預測上的巧妙性,本文從我國刑事和民事數據集中選取了6對位于不同父法因節點下的易混淆法因進行測試,這6對易混淆法因在事實描述中極為相似,難以區分,其對應的父法因如表5所示。

表5 易混淆法因-父法因關系映射表

本文分別在DPCNN、FACT及IHLCP模型中對于選取的易混淆法因的預測效果進行了對比實驗,其中模型對于6個易混淆法因預測的準確率如圖6所示。

圖6 易混淆法因預測準確率

將6個法因預測成其對應的易混淆法因的誤判率如圖7所示。

圖7 易混淆法因誤判率

從圖6和圖7能夠看出,IHLCP模型相較于其他基線模型,對于易混淆法因的識別能夠達到較高的準確性和較低的誤判率。這說明法因的層次結構及其名稱所含的內部信息能夠有效應對易混淆法因難以預測的問題。通過層次預測,我們可以直接在其父法因上加以選擇,并不需要花費太大的代價就可以對易混淆法因進行有效區分。

同時我們引入的層次結構可以緩解數據不平衡現象,通過將法因劃分為更小的組,使每個法因在更小的區域內競爭,進而提升模型預測性能。

此外,本文還通過刑事、民事的具體案例來驗證法因的層次結構,展現該模型的良好性能,具體細節如圖8所示。

圖8 個案分析效果示意圖

對于輸入的案例,模型可以預測對應的法因鏈路,該鏈路可以作為模型的正當解釋,支撐模型預測結果。

4 總結與展望

本文針對當前法律智能體系可解釋性差、低頻易混淆法因預測效果不佳、民事糾紛研究過少的問題提出了IHLCP模型。該模型對于刑事和民事領域的案例進行了研究,基于改進的XLNet-DPCNN模型對具有語義差異性的事實描述進行編碼,法因內部的文本信息用于消除事實描述中的噪聲信息。在解碼器部分引入了法因的層次依賴結構來有效解決刑法和民法數據分布不平衡導致的低頻、易混淆法因難以預測的問題。同時本文采用法因路徑作為模型可解釋性的來源,從而開拓了我國法律智能體系的應用場景。

實驗結果表明,本文設計的IHLCP模型能夠緩解數據分布的不平衡現象,無論是整體性能還是對于低頻、易混淆法因的預測性能,均優于基線模型,證明了該模型的有效性和魯棒性。

未來工作中,我們將從以下幾方面對法律智能領域進行探索: ①數罪并罰問題; ②將原告主張納入民事事由的預測任務; ③基于聯合學習或投票策略的類案匹配和刑期預測任務。

猜你喜歡
解釋性層次結構罪名
基于級聯網絡和語義層次結構的圖像自動標注方法
論行政自由裁量的“解釋性控權”
英漢互譯中的認知隱喻翻譯探究
論立法修辭功能的層次結構
融媒體時代解釋性報道的發展之路
刑法罪名群論綱*
重新認識濫用職權和玩忽職守的關系*——兼論《刑法》第397條的結構與罪名
非解釋性憲法適用論
建構利益相關者管理的三層次結構分析
基于計算機防火墻防護技術探究分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合