?

計算法學方法的運用規則研究

2022-02-23 20:17嵇紅濤
前沿 2022年5期
關鍵詞:法學法律方法

嵇紅濤

(廈門大學 法學院,福建 廈門 361005)

一、作為法學研究新方法的計算法學

大數據和計算機技術的快速發展推動著時代社會轉型。隨著數學、統計學、計算機科學等學科方法日益成熟,越來越多的學者開始將目光聚焦于探索數據的隱匿規律,逐步將數據分析、數據挖掘、人工智能等方法與各學科交叉運用,探索不同學科視角下所關注數據的深層規律,諸多法學研究者也紛紛加入其中。本文立足于計算法學這一新興主題,嘗試厘清計算法學概念中的基礎法學理論,探究構成計算法學方法的核心要素,并在此基礎上分析計算法學方法的運用規則。

(一)計算法學的概念界定

計算法學是在法學實證研究融合計算機數據分析技術后不斷發展演變出來的概念,這一詞匯并非由國內研究者創制,而是始見于英美學者的法學成果文獻。早在20世紀80年代,瑞典的法學研究者皮特·塞佩爾已經在自己的研究成果中使用“計算法學”這一詞匯,他認為計算法學在未來或許會發展成為一門全新的學科,并指出計算法學是以計算機科學技術為基礎的法學研究方法,其研究的內容主要為法律信息檢索方向、法律數據庫建設、法律信息安全保護及與此有關的個人權利保護等問題。[1]其后的一段時間里,計算法學多次在法學研究范式、信息法學和法學實證分析等研究主題的文獻中被引用。盡管如此,計算法學在后續很長一段時間內并未得到學界專家的足夠重視。直至2005年,斯坦福大學的研究者邁克·吉樂塞瑞斯撰寫了一篇標題帶有“計算法學”的研究論文,成功發表在第十屆人工智能與法律國際研討會上[2],加之其本人極力推動計算法學學科的研究與發展,因而在斯坦福大學引起了一定的反響。自此,圍繞計算法學這一主題的國際學術會議、高校課程、研究論壇在世界各地紛紛出現。計算法學也引起越來越多法學研究者的興趣,越來越多的專家學者將其確定為自己的主要研究領域,并取得了一定的研究成果。歐盟在制定《“歐洲2020”戰略》中大力支持以計算法學為主題的兩個研究項目,這也成為計算法學發展的重要里程碑,標志著歐美國家開始大力推進計算法學學科發展,掀起一股以計算法學為主題的法學研究國際潮流。21世紀初,隨著計算機技術和大數據研究在國內興起,計算法學開始被國內部分學者關注,越來越多的國內學者也加入“數據+法學”這一研究浪潮中,產出了一系列“數據法學”“信息法學”“計量法學”等主題的研究成果。

我國已有部分學者前瞻性地提出了“數據+法學”的研究新方向為計算法學,并就其研究范圍展開了討論。有學者指出法學學科在大數據背景下會逐漸向社會計算的研究方向邁進,可將這種研究主題稱為“計算法學”,其包含的研究范疇為法律數據的動態匯總分析,以及以大數據為基礎的法社會學分析和預測研究。[3]也有學者提出計算法學是傳統的法學實證研究進入大數據時代的新型表現形式,本質上依然歸屬于法學實證研究,計算法學方法融合了傳統的定性與定量方法,兼具規范研究與實證研究的部分特征,最終以復合型、開放式的樣態,展現了復合研究方法與眾不同的意義。[4]新型計算法學方法的研究內容主要聚焦于對法律信息的數據挖掘,具備英美國家曾出現過的法律計量學、法律信息學等法學實證研究主題的內涵。還有學者認為,計算法學方法的出發點是具有數量變化關系的法律現象,主要采用現代數學、計算智能方法對特定的法律數據進行深入研究,未來研究者及公權力企業單位也可以基于此方法評估司法運行的效果,審視立法合理性,借此來探尋法律規范與經濟社會的潛在關聯。[5]

由此可見,計算法學是依托法學、統計學、計算機科學等學科理論,利用計算機數據處理分析方法在特定主題的法律大數據中尋求變量之間隱性規律的法學研究方法,其主要被運用于評估司法實踐效果、法治輿情分析、立法科學性評估、裁判文書信息挖掘、熱點研究趨勢分析以及司法裁決預測等研究領域。

(二)計算法學與相關概念的甄別

學界少有人去厘清同為“數據+法學”實證研究的數據法學、計量法學、信息法學與計算法學之間的區別。為此,需要對這幾個概念做如下討論。

1.計算法學與數據法學

國內有學者提出,數據法學研究的內容主要有三個方面[6]:第一是技術研究,技術層面研究的是代碼算法對法律運行機制的影響,具體來說可以涵蓋立法、執法、司法、守法四個方面,此外還包括對法治評估結果的影響;第二是實體研究,主要研究大數據在被收集分析過程中法律是否對其有一套配套的保護規則,以及借助大數據是否能實現社會治理;第三是方法研究,即研究怎樣利用大數據技術促進法學研究自身,這里面包含信息時代對傳統法學研究方法相關概念與既有原理的沖擊與回應。就此看來,數據法學的概念與本文所提的計算法學概念相差甚遠。數據法學的研究選擇了更為宏觀的視角,將大數據時代法學發展的可能性做了長遠展望,而計算法學則是一種聚焦于具體問題的法律實證研究方法,側重于數據分析技術在法學問題研究中的特殊價值以及如何確保計算法學方法的實現。

2.計算法學與計量法學

計量法學曾經有“legal statistics”“forensic statistics”“jurimetrics”等對應的英文詞匯,從這些詞源搭配可以看出,計量法學強調的是“法律+統計”的相關關系,其中無涉計算機科學中較為前沿的數據挖掘、建模分析等技術。計量法學不是研究一種特定的計量單位、計量標準的法制化、規范化問題,而是突出法理學測量技術,包括檢驗、分析、試驗技術所運用的方法。顯然,計量法學將定量和計量的方法引入法學研究領域,對傳統以定性分析為主的法學研究方法和法學研究視角造成了巨大的沖擊,對傳統法理學(Jurisprudence)研究方法同樣也是一種很大的挑戰。也可看出,計量法學的內核是一種法律現實主義理念,倡導結合經驗分析和科學嚴謹的實證分析方法來研究法學問題。由此可見,計量法學的概念較計算法學而言提出較早,囿于早期數據分析方法難以超越當時的技術水平,更難以預知計算機科學的發展是否會給數據研究帶來更深層次的機遇,因而計量法學所提供的方法具有時代局限性,其倡導以統計學的分析方法作為研究法律數據的主要工具已經不足以融合新型數據分析方法。統計學或計量學的研究方法現今為許多法學實證研究者運用,計算機技術也為統計學數據分析提供了極大便利,因而計量法學作為早期法學實證方法應當被計算法學的概念吸納。

3.計算法學與信息法學

有學者認為法律信息學也是由法律計量學發展而來,二者可以視為一個發展脈絡上先后出現的兩處節點。[7]有學者認為法律信息學具備兩個本質特征,首先法律信息學賴以存在的基礎理論是信息學,其次法律信息學研究的對象必然是法律領域與信息有關的問題,進而提出法律信息學是借助信息科學的研究方法對法律信息進行二次運用研究的科學。而信息法學則不同,信息法學的理論依托是法學學科,研究對象是信息學科關注的領域內的法律問題。[8]顯而易見,此處的信息法學將所研究的對象限定在了信息學科之下,其所指向的更像是“商業秘密保護”“個人信息保護”這樣的研究主題。誠然,信息法學并不是信息學所涉領域內法律問題的研究,更不是實體法層面上所要討論的“信息時代面臨哪些新的法律挑戰”的問題。雖然信息法學的精確定義以及所研究的范圍很難厘清,但這并不影響我們找出計算法學與其之間的區別。不可否認的是,法律信息學與信息法學始終與“信息”這一概念緊密聯系,而計算法學是基于“數據+法學”的研究模式建構而成,二者的本質不同最終會回歸到研究“信息”與“數據”的區別之上。通常認為,信息要具備可識別性,數據則是一種實現信息傳遞功能的載體?;诖?,計算法學和信息法學在選取研究對象上已有較大差異,信息法學關注有效的、已經初具價值、能反映一定內容的數據,而計算法學的直接研究對象是還未成型、尚待挖掘出一定規律的離散數據。

(三)計算法學方法的要素

作為一種較新的法學實證研究方法,計算法學的實現離不開諸多要素相互支持,研究范式也應當區別于傳統的規范分析、價值分析方法。有學者曾提出法律實證分析由三個要素組成,分別是程序、經驗、量化。[9]其中,程序要素涵蓋確定研究問題、假設理論命題、數據分析處理以及得出最終結論四個實證研究步驟。經驗因素之所以能占據一席之地,是學者抓住了實證研究與其說是對數據案例進行分析,不如說是對司法經驗進行二次分析這一本質。[10]而量化因素指的是數據分析方法,以特定的方法研究數據,包括統計學的描述和運動趨勢的預測。計算法學專注于法律大數據處理分析,已不再是傳統的統計學假設命題檢驗,其方法的實現更多依賴于新型多元的計算機數據分析技術,計算法學方法的三個核心要素是數據、算法和專家。

首先,法律數據是計算法學方法的研究基石。大數據方法之所以能為諸多學科專家學者關注運用,其根本原因在于各學科差異雖大,但研究對象大多都以數據的形式被記錄保存在服務器中。數據研究方法有特定的適用對象范圍,但不嚴格區分數據來源或者要求數據屬于某一具體學科。數據自身的屬性使其擺脫了各個學科之間原有的知識障礙,這也是大數據方法得以跨學科應用的根本原因。此外,計算法學方法的最終結果完全取決于數據,數據的規模、數據的質量等會從根本上影響最后結論的正確與否以及可信程度。比如某位研究者想要研究“合伙企業作為原告的勝訴率”問題,選取的裁判案例均為原告敗訴的案例,最終得出的結論一定是“合伙企業作為原告必然敗訴”,這顯然是一個錯誤結論。然而,研究者在對該問題進行實證分析時,選用的計算法學方法未必是錯的,結論也是“有效的”,但是基于偏頗的數據產生的“有效”結論未必是正確的。

其次,計算機算法為計算法學方法實現提供保障。法律實證研究由來已久,雖然早期的實證方法與文中的計算法學方法相差甚遠,但皆屬于實證研究。同為實證研究方法,計算法學方法的不同之處在于融入了現代計算機數據分析技術。人工智能發展得益于計算機算法日益成熟,計算法學可以說是人工智能在法學研究方面的一個應用。計算法學方法之所以不再局限于簡單地實現法學關鍵詞詞頻統計、頻次排序、分類匯總等基礎統計功能,是由于計算機代碼模型可以多樣化、多元化地處理海量的法律大數據。由此可見,計算機算法是區別早期法律實證研究和當下法律實證研究的關鍵,計算機算法為計算法學方法的實現提供了最根本的方法保障。面對同樣的法律數據,選擇不同的計算機算法數據分析模型,結果未必是相同的。因此,計算機算法是原始數據到分析結果之間的“加工廠”,對于計算法學方法的實現至關重要。

從事計算法學研究的專家學者是計算法學方法的第三個要素,是架起數據與算法之間的重要橋梁。有學者認為計算法學方法的難點在于數據質量無法保證,還有人認為現在的計算機數據分析技術還不夠智能化。[11]實則不然,相比于過去司法數據獲取渠道困難、裁判文書獲取方式不易等問題,現在的法學實證研究已經在數據獲取便利性上有了極大的突破,再加之現有信息科技的發展,數據處理分析技術日益成熟,數據獲取和處理分析條件較以往均有了根本性變化。當前,計算法學方法能否實現的關鍵已經轉移到了法學研究者身上。使用計算法學方法進行實證研究要求學者同時具備計算機和法學雙專業基本素養,在具有足夠法律知識儲備的同時能夠熟練運用具體的計算機數據分析模型。因此,在大力發展計算法學的今天,還需著眼于計算法學人才的培養,這才是破除當下計算法學研究瓶頸的關鍵一環。

二、計算法學方法的數據考察

計算法學聚焦于存在數量或者具有數學關系的法律現象,從現象中提煉研究問題,在此基礎上運用計算機數據分析的方法尋求結論,而數據、算法、專家構成計算法學方法的三大要素。不同的法律大數據來源代表著不同的數據源格式,也直接決定了基于此種數據源可使用的計算機數據分析方法的范圍。法律數據是計算法學方法的直接運用對象,運用計算法學方法前,學者有必要對法律數據做出細致考察。

(一)法律數據的質量

計算法學方法作為一種實證研究方法,直接分析對象就是帶有法律含義的數據。專家學者使用計算方法時,首先需要對研究的法律數據作細致考察。龐德認為,法學是一門以社會統計學為目的的應用科學。[12]9而與統計密切相關的法學實證研究結論可靠程度,在一定程度上依賴于選用的法律數據質量。實證研究與定性研究的重要區別就在于實證研究追求在研究過程中盡可能排除主觀因素,而數據作為計算法學的直接研究對象,其真實性、有效性和一般性(也可稱為普遍性)是達成這一研究目的的重要基礎,從事計算法學研究的學者也應當從這三個方面考察研究數據的質量。

所謂真實性,是指法學實證研究基于的法律大數據必須真實可靠,真實可信的法律數據是得出正確研究結論的基礎保障。數據來源的真實性對于各學科大數據研究者及各行業數據工作人員都至關重要。而基于不真實的數據得出的結論必然錯誤,利用造假數據得出“完美結論”的危害比學術不端嚴重百倍。肇始于自然科學方法的實證研究方法為社會科學研究注入了新的活力,這在某種程度上就是一種社會科學研究方法向自然科學研究方法傾斜的表現,而自然科學以其充分尊重研究對象數據的客觀真實為原則,結合歸納、總結方法探索出了諸多定律和公理,為人類不斷點亮未知領域。社會科學研究雖然總是夾帶著視角多元、學派紛爭、結論不唯一等主觀因素,但這并不影響我們尊重社會客觀事實,選用非經驗化的方法重新研究來源于社會的真實數據。因此,專家學者應對研究數據的真實性持審慎態度,避免數據造假,除此之外,還應留意一些數據中的不真實因素。譬如有些研究人員在法檢部門門戶網站或公共社交平臺獲取法律數據,此類數據本身可能帶有一定的偏向性,有可能是數據公示人員篩選符合一定特征或喜好的偏頗數據,這也會在一定程度上影響法律數據的真實性。

專家學者除了確保研究數據的真實性,還應當確保數據的有效性,并非所有滿足真實性的法律數據都能成為有效的研究數據[13],法律數據由于“過期”等原因也會導致數據失效。以刑法數據研究為例,我國不同時期的刑法及司法解釋對同一罪名犯罪的構成要件、量刑情節、賠償金數額規定可能截然不同,還存在罪名變更、罪名增減等情況,直接以某一罪名作為關鍵詞檢索出來的裁判文書可能是在不同時期刑法及司法解釋下生成的,其中有些文書案例可能并不符合研究主題的要求,進而成為無效數據。時間及其他因素對法律數據有效性的影響皆屬于運用計算法學研究問題的數據考察階段必須考慮的問題?;蛟S有學者會質疑,數據的有效性要求足以吸收真實性要求,理由在于非真實的數據自然都是無效的。從結論來看,此觀點并無不妥,真實的數據未必有效,不真實的數據必然無效,但筆者認為仍然要將二者區分對待。數據真實性是對數據本身真偽屬性的判斷,是一種客觀真偽認定,而有效性是強調數據是否有助于研究問題的解決,是一種“貢獻度”認定,兩種屬性的判斷立場不同,應單列區分。

在數據考察階段,研究人員還應當注意法律數據來源的一般性,這是指在法律數據的選擇上要避免特定傾向,選取的研究數據無論是來源于研究機構的案例數據庫,還是各級法院出版的案例以及研究者著作中的案例,抑或來源于裁判文書網的數據,選擇過程需要具有隨機性。如果所涉研究局限于某地域或區域,那在此限定范圍內的案例選擇也需要具有隨機性。以裁判文書數據研究為例,研究者在選取研究案例時,應當考慮選擇非典型性案例,注意分析數據來源的一般性、普遍性。例如要選取一批司法裁判案例來研究國內民事賠償金問題,研究人員就不得不考慮我國幅員遼闊的客觀情況,法院最終認定的賠償金額會因各地區經濟發展水平不同、地域文化多樣等因素導致數額相差甚遠;倘若只選擇某一地區的民事賠償金案件做數據分析,得出的結論又勢必會有管中窺豹之嫌。因此,從事法學實證研究的工作者,應當充分考慮自己研究的問題需要何種范圍、何種類型的數據,確保選取的法律數據置于研究問題下具有一般性。研究人員選取數據時不妨參考統計學的經驗,采用隨機抽樣方式選取數據,確定研究問題下數據來源的場域,可以在場域內盡可能隨機抽取案例來源,也可以在某一場域內采用全樣本研究,有效避免選取法律研究數據片面的問題,確保法律研究數據的一般性。

綜上所述,專家學者在計算法學研究問題的數據考察階段應重點對研究數據的真實性、有效性、一般性做出考察。具體來說,有以下幾點需要注意:第一,在案例數據的選擇上注重抽樣調查的原則,盡可能采用大樣本法律數據,以便減少錯誤樣本對結論的影響;第二,選取案例數據時盡可能通過多種渠道收集,單一渠道可能會帶有數據發布者傾向,影響研究結果;第三,要對數據進行初步篩選,排除不符合研究主題或明顯偏離研究主題的數據;第四,保留好原始數據來源,最好在研究分析報告中加以說明,以供其他研究者交流學習。

(二)法律數據的結構化清洗

基于法律數據的法學實證研究或多或少會給堅持從事經驗分析的研究人員帶來一些沖擊。需要說明的是,專家學者應正視法律數據量大幅增長和大數據背后的價值這一事實,以開放的態度面對法律數據研究才是正確選擇。法律數據是開展法學實證研究的基礎和依托,并不是法學實證研究的最終目的。法律大數據研究在某些方面是實證研究和經驗分析融合的結果,尤其在海量裁判文書挖掘的運用場景下,一份文書就包含了一次完整的經驗分析過程,此時法學實證所要做的就是對大量的經驗分析數據進行二次分析,探究不局限于個案經驗集合數據中的規律。

在數據考察階段,除了上文提及的數據質量,研究人員還需注意數據的結構化清洗問題。計算法學方法是計算機數據處理技術與法學實證研究融合的最新成果。計算機科學從20世紀發展到今天,在人機交互、人工智能、深度學習等方面取得了顯著進展,但其能直接處理的基礎數據格式依然是二進制0、1字符,而計算法學方法最終在模型中分析的也只能是結構化數據。結構化數據是指由多條包含既定的標準字段(也可稱為指標、變量)值的記錄組成且具備一定格式的二維表。將其類比到裁判文書中作進一步說明,每份裁判文書就是一條記錄,我們可選擇以審理法院、原告所在地、被告所在地、訴訟案由、是否上訴等作為字段,每條記錄對應到字段就會有具體的數值,這就是一份標準的結構化裁判文書數據表,計算機數據挖掘就是基于結構化數據去尋求字段間的規律關系。自然語言處理技術和文本挖掘技術使得研究者借助代碼程序可以自動提取文本中的有效字段,但這種技術并不能直接生成準確無誤的結構化數據供計算機模型進行分析,為確保數據分析結果的可靠性,仍需要研究人員對自動抓取的數據修正清洗。

計算法學方法直接處理結構化數據,專家學者在數據源選擇變量時要充分考慮指標結構化的難度。法律數據中有大量定性指標,如何將其轉化為定量指標是進行數據結構化表達最為關鍵的問題之一。比如法院導訴服務滿意度調查研究勢必會涉及定性評價指標,調研人員收集到的指標值往往是不滿意、一般滿意、較為滿意、非常滿意等,這顯然是一種定性表達。研究者在對數據結構化處理時可以將上述指標值對應賦具體數值為2分、4分、6分、8分,如此一來,數值越大代表群眾對該項指標越滿意,定性表達就轉化為定量表達。為了便捷操作,調查研究人員也可以讓群眾直接對某項指標進行滿意度打分,在收集數據時完成定性字段的定量轉化。裁判文書有諸多定性描述指標,比如犯罪的既遂未遂、是否構成累犯、是否存在認罪認罰情節等,此類指標屬于定性分類指標,結構化方法較為簡單,符合情形就賦值為0,不符合賦值為1。相比于定性字段的結構化過程,定量字段的結構化則較為簡單,比如年齡、罰金、刑期(需要統一單位)等,研究者可直接以原有數值作為指標值,還可以根據研究需要做出適當調整。比如將連續數值型指標劃分段表達,將年齡值這一指標轉為定性分類指標,以成年、未成年作為指標值。再比如將量刑刑期按區間劃分為3年以下、3年到10年、10年到無期、死刑四種類別。法律數據具體處理方法因人而異,將離散數據重新整合成標準的、可供計算機處理的數據二維表,在一定程度上體現了法學實證研究人員的業務水準。[14]

在數據的結構化表達過程中,研究人員應對綜合字段的選取持審慎態度。所謂綜合字段指的是那些“容量較大”的指標,簡單的賦值并不能準確有效地反映指標情況,比如被告人的心理素質、人格特征、人身危險性、社會環境、生理條件等[15]136。如果選取被告人心理素質作為字段,對其賦予良好、一般、較差等描述值意義甚微,良好的心理素質可能包含了很多二級評價指標,諸多的二級評價指標值合力作用指向一個綜合指標值,因此,對綜合性指標進行簡單賦值需要其他研究輔助論證。研究者在運用計算法學方法時,應盡可能選用能被清晰準確描述的無爭議變量,避免選取的變量由于賦值模糊不清或缺少理論支撐導致整個法學實證研究的結論可靠性不足。

三、計算法學方法的運用規則審視

運用計算法學方法研究法律問題應遵循法律實證方法的基本步驟,全過程由問題選取、數據收集、實證分析、得出結論四步組成,這也是統計學研究的一般步驟。計算法學方法由于運用場景學科化、多樣化和模型技術多元化、復雜化等原因,整體雖遵循實證研究的一般步驟,但實現方法和運用規則較傳統實證研究相差甚遠。本部分將對計算法學的運用規則作進一步闡述。

(一)構建明晰的計算法學問題

運用計算法學方法研究法律數據首先需要構建問題。從前文可看出,計算法學方法與統計學方法有著較大聯系,但計算法學所涉問題的表達方式與統計學“假設-檢驗”表達明顯不同。假設檢驗是對關于變量之間未知關系預設的可檢驗命題,或者理解為對變量之間關系的試探性說明。[16]假設就是研究人員預先設定“未知”變量之間關系,形成標準命題的過程。此處的假設不是學者進行規范分析時可能帶入的價值假設,也不是存在于研究問題前的潛在假設。比如“犯罪本質上是自然現象”就是“天生犯罪人論”的潛在假定,假設檢驗中關于命題的假設是一種實實在在的變量關系設想,其命題形式是“若A,則B”,A、B均是陳述性表述。假設檢驗分為理論假設和工作假設,與定性研究不同,實證分析中的任何理論陳述,最終都要變為可檢驗的工作假設,只有工作假設才能被研究者實際檢驗。譬如,“犯罪越嚴重,社會反應就越嚴厲”就是個理論假設,無法直接進行檢驗,需要將其轉換為工作假設,如“犯罪率越高,則死刑的適用和嚴打的次數就越多”等。研究人員進行命題建構,完成理論假設到工作假設的轉化,建立何種假設命題及命題的可信度,取決于實證研究人員自身的業務水平及選取研究數據的質量,需要注意的是,假設的命題還是一種未經檢驗的理論,建立假設、檢驗假設的本質就是在理論命題與實踐數據、抽象與具體之間不停交互往返,這是實證分析通往研究結論的必經之路。

計算法學方法研究的問題形式是一種更加開放的表達方式,專家學者先基于研究興趣或可獲得的法律數據確定研究主題,對樣本法律數據進行初步評估后,再明確要設定的變量,構建一個適用計算法學技術的開放性問題。問題表達的開放性是計算法學方法研究的一大特征,也是計算機數據建模分析技術進步的重要表現。構建表達一個有效的計算法學問題是專家學者們運用計算法學方法進行法學實證研究的前提,計算法學方法的問題表達與運用場景和實現技術緊密相關,專家學者們應綜合衡量來源數據情況、研究主題、可使用平臺技術來構建表達計算法學問題,這也是大數據處理技術多樣化的必然要求。

總的來說,研究人員在構建計算法學問題時,要綜合來源數據、運用場景、技術類型等因素,盡可能采用開放式問題表達,研究者可以表達為“基于某技術對某法律數據進行某種研究”,或“從某數據中研究A、B、C、D、E五個變量的關系”,又或“基于某數據研究A、B、C、D變量對E的影響”,諸如此類的問題表達有助于快速明晰研究中的數據來源、研究方法、運用場景等。當然,此處所說的問題表達只是為了給研究人員提供更清晰的研究思路,并不是在框定最后研究報告或成果的標題范圍。當專家學者明晰法學研究問題歸屬并完成問題表達后,才能使其更好地完成計算法學研究任務。

(二)選擇數據分析模型

計算模型為計算法學方法的實現提供技術基礎,也是計算法學不同于傳統計量法學的根本原因。在法律數據收集與結構化表達階段,研究人員對選用何種計算法學分析模型應有基本判斷,完成數據的收集和結構化表達后,計算法學的研究進入計算機模型分析數據的階段。在這一過程中,研究人員的工作量顯著降低,計算模型會在最大程度上排除研究者干預完成自動識別、自動分析、自動挖掘、結果導出等工作[17],最后經由計算模型處理運作呈現數據分析結果。研究人員可以基于數據分析結果對模型參數做出調整,讓計算機重新分析數據,也可以基于數據分析結果對所研究問題做出解釋說明。當然,如果結論明顯有違法律常理,可以放棄這組數據的分析結果,對研究數據做出適當調整或者重新選擇計算模型后重復這一過程。

具體分析模型的選擇對于計算法學方法的實現極為重要,數據類型、指標數量、研究目標等都會影響計算模型的選擇。專家學者選擇計算模型可以以數據變量類型為出發點確定可用分析模型范圍,比如在比較分組數據樣本研究中,數據指標層次包括連續指標和分類指標,同時供研究人員選擇使用的有均值比較和交互分析兩種計算模型。以刑法案例數據研究為例,有學者在觀察法院刑事案件判決時注意到這樣一批案例[18]:判決書中也有“盜竊數額較大”的情形,最終判處的刑罰在三到十年之間;判決書中也有“盜竊數額巨大”的情形,最終被告人被判處的刑罰在十年以上。按照《刑法》第264條規定,這兩種情形都超出了法定的量刑幅度,顯然存在有悖刑法規定的可能。面對上述問題,研究人員勢必會收集符合對應情形的兩組案例數據,簡單分析可知,該問題數據中的“盜竊數額較大”“盜竊數額巨大”及被告人判處的刑罰區間均屬于分類型指標。確定數據類型和指標特征后,研究人員應將目光轉向不同計算模型的特征區別上。經分析可知,均值比較模型適用于兩組數據組間對比,主要適用于連續數值型變量,而交互分析模型則適用于離散非連續型變量。將兩種分析模型所適用的變量類型與案例數據情況稍加比較后,研究者就可確定該研究問題選用的計算模型為交互分析模型。

研究人員應熟練掌握計算分析模型特點,除掌握計算模型適用何種變量外,也要了解每種計算模型的局限性。仍以交互分析模型為例,其本質是對一個自變量與一個因變量之間關系的交叉分析。如是否構成重傷與正當防衛是否成立的關系,這種分析以假定其他關系不存在為前提,因變量只受自變量影響。[19]而因變量正當防衛是否成立與是否具有緊迫性、是否超過必要限度等許多因素有關。[20]當研究者發現交互分析模型難以發揮作用時,可從其他計算法學模型中尋找出路。比如數據挖掘中的關聯規則模型就可以擺脫雙變量關系研究的局限[21],適用于離散型變量,無差別地利用置信度(Confidence)和支持度(Support)算法來挖掘任意變量之間隱含的強弱關系,更好地為計算法學探索多變量關系提供模型支持。計算法學還給研究者提供預測研究的模型,適用于多個自變量作用于一個因變量(結果)的法律實證問題,比如學者從事的刑事量刑預測[22]、知識產權賠償金預測[23]研究均屬此類。計算法學中針對多個自變量與單一因變量間的關系研究可以采用多元線性回歸、人工神經網絡等分析模型。Logistic回歸和人工神經網絡模型都可以同時展開多個、多種自變量對一個因變量的建模分析,需要注意的是,法律數據中除涉案金額、人數、時間、刑期這樣定距的連續變量以外,還有很多例如是否撤訴、是否上訴、是否存在違法阻卻事由等分類變量,這些變量的值可能會直接影響因變量的結果,換言之,此類變量對分析模型的選擇往往有較大影響。

由此可見,在法律大數據研究中選用何種計算模型依賴于研究人員對研究數據和計算模型的熟識程度。一方面,研究人員選取的研究數據來源決定了可提取的變量個數以及每種變量的類型,不僅影響了依托這些變量可構建的研究問題,還極大地限縮了能夠同時滿足所研究變量與問題情形的計算模型。另一方面,研究人員掌握了何種計算模型以及掌握到何種程度,也決定了自身能研究何種計算法學問題以及開展具體研究的順利程度。

(三)模型結果的檢驗評估

實證檢驗是實證研究是否成功有效的“質檢員”,計算法學是一種針對法律大數據的法學實證研究方法,檢驗評估的重要性不言而喻。在此階段,研究人員可以依據計算模型本身提供的檢驗參數對數據分析的有效性做出評估,也可以通過考察模型分析結果來優化模型中的參數,重新導入數據分析模型,直至獲得滿意的結果。若是模型分析結果檢驗無效或者優化后仍得不到任何規律,研究人員就要重新考慮數據質量、問題表達、模型選擇是否存在較大問題。

計算法學模型由于技術代碼復雜、技術類型多樣、變量類型繁雜、分析結果格式不一等原因,并不存在一種統一可套用的檢驗方法。專家學者應結合運用的計算模型特點,有針對性地對計算模型進行如下兩個方面的有效性檢驗。其一是模型自帶指標檢驗。研究者首先要確認計算模型本身自帶檢驗指標值是否在有效范圍內。一般來說,任何一個較為成熟的數據分析平臺或數據分析技術都已經包含了一些結果評價指標,比如前文提及的適用多自變量對單一因變量研究的Logistic回歸分析就包含著t檢驗和F檢驗[24],前者用來檢驗單個變量的顯著性,后者則是檢驗多個自變量對因變量影響的顯著性。諸如此類,研究人員需要先關注計算模型中自帶的檢驗指標,確?;灸P头治鰺o誤。其二是模型運行效果檢驗。計算模型技術繁雜,同一功能的實現代碼也有所區別,某代碼運行有效意味著數據分析過程順利,但這并不一定代表基于此種代碼的運算法則得到的模型運算結果是最佳的。比如實現多變量關聯規則分析的典型算法是Apriori算法,但已有不少研究者對其進行多次改進[25],使數據挖掘效果更加理想,研究人員應嘗試不同算法選擇最佳模型。

除此之外,學者還需要對計算模型給出的結果進行價值評估。計算法學方法是利用海量的客觀法律數據,挖掘潛藏在數據表象下或利用規范經驗分析不易發現的規律,但法律數據無非來源于司法實踐活動、法院裁判案例、學者研究文獻等,其背后蘊含了社會大眾對于法律的價值認知,基于計算法學方法得出的結論應符合社會大眾、專家學者主流價值判斷,絕不可能得出“殺人者無罪”這種結論。因此,專家學者有必要在模型檢驗后,對模型分析結果進行價值評估,分享正確的法學研究成果,以免有些別有用心的研究者借由計算法學方法的外衣在學界博取眼球,嘩眾取寵。

四、結語

鑒于計算法學方法的相關內容尚未在學界獲得統一認識,對其進行概念界定、相近概念甄別有助于專家學者厘清計算法學方法的本質屬性。不同于傳統的規范分析,計算法學是一種拋除經驗預設,完全依托客觀存在的有效文本數據,在“海量經驗”中尋求新知的實證研究方法。又不同于計量法學、數據法學、信息法學等其他法學實證研究主題,計算法學方法具備多場景、多技術、復合型的特征,數據、算法、專家構成了計算法學方法的三大核心要素。計算法學方法的實現難點在于專家學者能否對運用場景、數據來源、數據變量特征、分析模型四個方面準確把握,應從真實性、有效性、客觀性三個維度考察數據質量,明晰變量類型,對研究數據進行結構化表達,進而結合分析模型的特征構建研究問題。完成數據分析后,研究者還需從模型指標、模型效果、內容價值對分析結果進行檢驗評估。

信息化社會為法學研究帶來了計算法學方法,同時也給學界帶來了全新挑戰。國內亟須建立一個法學家和計算科學家的交流平臺,使兩大學科相互賦權,進而培養一批杰出的學科交叉型人才。此外,計算法學方法的研究和發展始終建立在法律大數據之上,互聯網平臺對大數據進行集成與轉換是否會導致個人或企業的隱私數據泄露,如何配備完整的信息保護制度,怎樣平衡推進大數據研究工作和信息數據保護二者的關系,需要學界及相關人士共同研究。唯有如此,法學大數據研究才能以穩固的姿態持續向前,推動法學學科良性發展。

猜你喜歡
法學法律方法
《南大法學》征稿啟事
《南大法學》征稿啟事
《南大法學》征稿啟事
《南大法學》征稿啟事
法律解釋與自然法
用對方法才能瘦
讓人死亡的法律
“互助獻血”質疑聲背后的法律困惑
四大方法 教你不再“坐以待病”!
賺錢方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合