?

多視圖融合DJ-TextRCNN的古籍文本主題推薦研究

2024-02-04 09:45楊秀璋
情報學報 2024年1期
關鍵詞:古籍視圖語料

武 帥,楊秀璋,何 琳

(1. 南京農業大學信息管理學院,南京 211800;2. 武漢大學國家網絡安全學院,武漢 430072;3. 貴州財經大學信息學院,貴陽 550025)

0 引 言

隨著數字人文研究縱深化拓展,計算社會科學跨學科融合,推動著以大數據[1]、人工智能[2]、知識圖譜[3]等為代表的互聯網3.0 技術拓寬新文科背景下的人文社科領域尋找新的研究范疇[4],以進一步提升傳統社會科學領域下的計算人文標準。隨著計算人文研究的深入,數字人文研究不再局限于單部古籍文本,而是針對某一特定研究主題的古籍文本進行細粒度文本挖掘[5]。古籍研究者如何快速精確定位目標主題的古籍文本,智能化實現古籍文本的主題內容的推薦,已成為數字人文研究領域迫切需要解決的難題。因此,面向古籍研究者的古籍文本事件類型的主題自動推薦算法研究變得尤為重要。推薦算法(recommended algorithm)[6]作為一種結合用戶歷史行為、興趣和社交網絡等信息,為用戶推薦個性化的技術,隨深度學習技術的發展已成為當下文本挖掘領域的一個研究熱點和難點。如何結合古籍文本語料特征、提供古籍文本的主題自動化推薦服務,對數字人文領域研究發展具有重要的意義。隨著我國于2007 年起實施“中華古籍保護計劃”[7],海量珍貴古籍實現了數字化保護,為人文計算提供了重要的語料研究對象。由于古籍文本時間跨度大,不同時期編目主題劃分標準不一,古籍研究者面對海量數字化古籍文獻的領域主題劃分變得尤為困難,在數字人文研究過程中查詢和分析同一主題的古籍文本難度加大,短時間內無法實現精準獲取古籍文獻知識庫中同一主題的古籍文本[8]。為保障研究者短時間內獲取古籍文本主題的準確性,推薦符合其研究主題需求的古籍文本,本文參考并深入分析推薦算法,結合古籍文本特征,提出一種多視圖融合DJ-TextRCNN(DianJi - recurrent convo‐lutional neural networks for text classification)[9]的古籍文本主題推薦算法,有效實現古籍文本的自動分類,為古籍研究者提供更精準的主題推薦服務。

面對古籍知識庫中大規模的數字化古籍文獻,傳統編目分類和規則匹配方法工作效能低,過度依賴專家知識,花費大量人力和物力成本,缺乏對古籍文本自身語義的深層次挖掘,隨著古籍知識庫的擴充,編目主題邊界模糊,較難實現對古籍文本主題的精準推薦。同時,隨著人工智能的興起,以機器學習和深度學習為代表的自動分類算法越來越多,但該類方法僅從實體視圖嘗試對文本自動分類,缺乏考慮古籍文本的實體位置與觸發詞之間的關聯性[10],缺乏考慮古籍文本在語言表達、文字風格和文字形式與現代文本的差異性,缺乏考慮古籍文本以雙句、疊句為主,缺乏考慮古籍文本側重于將情感滲透在文字中等具體情況。

針對上述現有推薦算法存在的不足,本文結合古籍文本語料實體識別后的觸發詞、實體的互補性,利用預訓練模型、深度學習模型和自注意力機制構建適用于古籍文本特征的主題推薦模型,將其命名為DJ-TextRCNN,以實現對古籍文本不同主題的自動分類和推薦。本文主要貢獻如下。

(1)相較于僅從實體視圖進行古籍文本挖掘研究,本文考慮到觸發詞對實體的互補,嘗試融合主體(位于觸發詞前的實體)、客體(位于觸發詞后的實體)和關系(觸發詞)三個視圖,從更多維度挖掘文本語義。

(2)傳統深度學習模型處理文本的優勢相對單一,而DJ-TextRCNN 模型綜合考慮了各模型的特點,包括卷積神經網絡側重于細粒度的文本特征提取、循環神經網絡側重于突出文本語序、雙向長短時記憶網絡側重于上下文語義關聯性、注意力機制側重于目標語義加權,以及預訓練模型側重于詞向量加權,實現了對古籍文本的更細粒度、更深層次的語義挖掘。

(3)本文嘗試融合多視圖語料知識元和上下文語義信息,通過DJ-TextRCNN 模型實現對古籍文本更細粒度、更深層次、更多維度的語義挖掘,一定程度上提升了主題推薦的準確性,可以緩解現有主題推薦研究過于依賴專家知識的現狀,進而節約古籍研究者獲取目標主題的古籍文本所花費的時間和精力,推動數字人文研究的進一步發展。

1 相關研究工作

隨著新一輪科技革命的發展,推動人類社會朝著嶄新的“智慧城市”時代發展,以第三輪科技革命為代表的大數據、人工智能、云計算等高性能技術逐步融入日常生活中,隨之衍生出的是日常行為方式的轉變。數智賦能[11]理念的提出為利用高性能計算實現主題推薦服務提供了理論支撐。本文旨在利用更細粒度、更深層次、更多維度的文本挖掘技術實現對古籍文本的主題推薦,節約古籍研究者獲取目標主題的古籍文本所花費的時間和精力。相關研究工作將從傳統古籍目錄的主題推薦、基于淺層語義挖掘的主題推薦、基于深層語義挖掘的主題推薦和主題推薦的研究現狀評述四個方面進行闡述。

1.1 傳統古籍目錄的主題推薦

現階段,古籍目錄的古籍分類研究較少,主要集中于古籍目錄和古籍數據庫的主題分類研究。

古籍目錄是指將古籍的書名和敘錄依次編列的總聚,是我國自西漢《七略》以來兩千余年古籍整理工作留下的重要學術遺產。古籍書目的四部分類法雖自《隋書·藝文志》后趨于穩定,但四部分類借下劃分并不嚴謹,各部分類范圍過于龐大,不利于精細研究[12]。姚名達[13]系統梳理了十三種書目的類目增刪變化,羅列了書目內涵的對照關系。萬彩紅[14]認為史志目錄中易學文獻的分類是跨列多類、紛繁復雜的,雖能體現中國傳統學術文化不同流派間的融合、演化出歷史研究軌跡,但并不利于現有古籍研究者的梳理。上述研究僅從類目層進行定性分析,缺乏考慮類目下具體收錄的古籍內容,存在一定的片面性。

古籍數據庫的主題分類是由現有古籍數據庫收錄的古籍資源主題決定的。隨著數據驅動的第四研究范式的興起,古籍整理和編目從最初的數字化轉向以數據和知識為對象的深度挖掘。夏翠娟等[15]設計一種能夠融合不同來源、格式的古籍目錄模型,搭建了“中文古籍聯合目錄及循證平臺”。李惠等[16]構建“人物-古籍-摘要”的文本特征提取模型,結合元數據信息和三種常用的文獻推薦算法,實現了古籍提要的知識發現。李文琦等[17]依據領域專家的需求,利用人機交互技術構建歷代古籍目錄可視化分析系統,較好地實現了類目分合轉化的模式識別。

總體而言,古籍目錄和數據庫的主題分類研究主要采用扁平化的方式,過于依賴專家知識。隨著所收錄古籍的涉及面增加,該方式因難度極大而難以普及,缺乏依托文本挖掘技術實現自動化分類的研究,不能提升基礎分類效率;且研究對象側重于四部分類法的類目層或類目層下具體收錄的古籍名稱,缺乏考慮古籍內容的研究。上述不足在一定程度上制約了傳統古籍文本的主題推薦方法在信息化時代的推廣,不適合更深語義的主題推薦。

1.2 基于淺層語義挖掘的主題推薦

隨著計算機技術的發展,計算機的計算力逐步滿足日常數據的統計歸納,淺層語義挖掘模型逐步登上歷史舞臺。淺層語義挖掘模型的規?;\用為主題推薦提供了新的方法,主要包括基于統計規則的主題推薦和基于主題模型的主題推薦。

常見的統計規則方法包括基于無監督學習的聚類、降維和自編碼器,以及基于監督學習的支持向量機(support vector machine,SVM)、樸素貝葉斯、決策樹等。常娥[18]運用聚類算法設計農史專題資料自動編纂系統,實現對“稻、麥、豆、棉、麻”五個主題的分類。Sinclair 等[19]考慮到古籍主題分類涉及歷史、社會等人文方面的因素影響,分別從定量和定性兩種視角交互式呈現數據規模和時間跨度的主題分類效果。北京大學與北京愛如生數字化技術研究中心合作研發中國基本古籍庫[20],構建自編碼器實現對分類、條目和全文三個方面的古籍檢索。張力元等[21]運用機器學習的方式實現對古籍《荀子》和《管子》目錄中互著與別裁映射的文本分類任務,為古籍在多類目記載提供了新思路,推動了主題推薦研究的發展。

Blei 等[22]在Hofmann[23]提出的潛在語義分析模型(probabilistic latent semantic analysis,pLSA) 的基礎上引入“先驗分布”的概念,提出潛在狄利克雷分配模型(latent Dirichlet allocation, LDA),在一定程度上推進了主題推薦研究進程。顏端武等[24]基于HDP(hierarchy Dirichlet processing)模型結合內容、時間相似度實現了對主題文獻的自動推薦。房小可等[25]綜合考慮標簽主題和主題概念空間因素,提出標簽推薦算法(LDA-concept),提升了單一模型主題推薦效果?;诖?,祝婷等[26]引入本體的概念,張亮[27]引入社會化標簽,秦賀然等[28]在互信息計算特征詞的基礎上加入命名實體特征,崔金棟等[29]引入微型本體概念,均通過提升語義來進一步提升LDA 模型的主題推薦效果。

總體而言,基于淺層語義挖掘的主題推薦方法在LDA 模型提出后,通過增強語義的方法不斷提升主題推薦效果。上述方法雖然在一定程度上提升了LDA 主題推薦算法的效果和精度,但核心研究模型依舊是以LDA 模型為主體,未考慮長距離文本上下語義的依賴程度,忽略了深層次語義知識對主題推薦結果的影響。同時,LDA 模型以“詞-主題-文檔”的詞頻概率統計假設,忽略了構建詞向量計算的優勢,對規模以上級語料進行主題推薦時效果不佳,監督學習過程容易造成語義損失、重復無效計算、面對新語料存在冷啟動[30]等缺陷,不適合深層次的主題推薦,需嘗試使用深度學習模型進行深層語義挖掘,提升主題推薦效果。

1.3 基于深層語義挖掘的主題推薦

Web 3.0 帶來了以GPU(graphics processing unit)為核心計算的強大計算能力,推動著人工智能技術不斷發展,一定程度上促進了主題推薦方法的改進,主要包括基于知識圖譜的主題推薦和基于深度學習的主題推薦。

基于知識圖譜的主題推薦是指通過構建知識庫,運用知識圖譜所具備的強大語義處理和開放互聯能力,從而實現對目標人群的知識推薦。翟姍姍等[31]針對不同場景分別構建知識庫,計算知識元間的相似度實現主題推薦,但缺乏深層次語義挖掘。彭博[32]構建主題-知識關聯模型實現對信息資源的知識推薦,雖然在一定程度上提升了語義挖掘效果,但數據維度會影響推薦效果。李鍇君等[33]考慮到推薦算法在學習高維度特征時出現的反向傳播路徑過長的問題,提出一種基于知識嵌入的編碼-解碼模型(knowledge embedding-based encoding-decod‐ing model,KE-EDM),在一定程度上提升了推薦準確性,但無法計算實體在現實環境下的權重。

基于深度學習的主題推薦是指通過運用神經網絡對信息資源深層次挖掘,發現潛在語義關聯性,從而實現對目標內容的主題推薦。常用于推薦算法的神經網絡以卷積神經網絡(convolutional neural networks,CNN)和循環神經網絡(recurrent neural network,RNN)為主。卷積神經網絡結構層主要由卷積層和池化層構成,能較好地實現對文本語料的潛在語義特征的提取。王杰等[34]融合LDA 主題模型和卷積神經網絡實現對目標用戶的主題推薦。嚴凡等[35]使用兩段卷積神經網絡實現主題推薦。李治等[36]融合樹狀與循環CNN 網絡實現實時主題推薦。相較于CNN 模型側重于細粒度的特征提取,RNN 側重于突出文本語序,但其在處理長文本語料時,易造成梯度爆炸或消失的現象,后常用效果更佳的長短時記憶網絡(long short-term memory,LSTM)[37]或雙向長短時記憶網絡(bi-directional long short-term memory,BiLSTM)[38]處理長文本語料。盧春華等[39]提出了一種基于本體和循環神經網絡的資源模型,雖然解決了電子數據存在信息過載的現象,但耗時較長。倪維健等[40]在傳統LSTM 模型基礎上引入多頭自注意力機制,提升了模型推薦效果。趙雪峰等[41]在傳統LSTM 模型基礎上引入預訓練模型(bidirectional encoder representation from transformers,BERT)[42],有效提升了模型提取能力。

總體而言,基于深層語義挖掘的主題推薦模型是現階段主要研究方法,隨著注意力機制、預訓練模型等新深度學習方法的不斷提出,通過細粒度、深層次挖掘語料信息來增強語義,實現精準的主題推薦。

1.4 主題推薦的研究現狀評述

現階段的主題推薦算法主要集中于對現代文本的研究,而針對古籍文本的主題推薦研究較少?,F有主題推薦方法研究中傳統古籍目錄、淺層語義挖掘、深層語義挖掘的方法均取得了一定的研究成果,一定程度上實現了細粒度、深層次的文本挖掘。但上述方法均僅從單一實體視圖角度進行細粒度文本挖掘,缺乏考慮不同視圖語義知識的特征互補性以及長文本數據間的上下文語義關聯性,會產生文本噪聲現象,易導致文本重復計算,較難實現對深層次文本特征的挖掘,一定程度上限制了主題推薦的準確性。

2 古籍文本主題推薦算法框架構建

針對古籍主題推薦模型僅從單一視圖實體進行文本語義挖掘、缺乏考慮其他視圖對語義特征詞的影響、準確率相對較低的問題,本文結合主體、關系和客體三個視圖的互補性和協調性,提出一種多視圖融合DJ-TextRCNN 的古籍主題推薦模型,實現對不同主題的古籍文本自動分類和推薦。

2.1 主題推薦算法整體框架

多視圖融合DJ-TextRCNN 的主題推薦算法模型整體框架如圖1 所示。該框架包含四個模塊:古籍文本語料處理模塊、多視圖融合特征提取模塊、DJ-TextRCNN 模型、主題推薦模型評估模塊。

圖1 多視圖融合DJ-TextRCNN的古籍文本事件類型主題推薦算法整體框架

(1)古籍文本語料處理模塊:系統處理古籍文本語料,主要包括中文分詞、詞性標注、命名實體識別、命名實體消歧、觸發詞識別。

(2)多視圖融合特征提取模塊:首先,將處理好的古籍文本語料數據分別從主體視圖、客體視圖和關系視圖進行文本特征提??;其次,將提取后的特征屬性結合權重進行賦值;最后,將多視圖融合后的文本特征進行詞向量化處理。

(3)DJ-TextRCNN 模型:先通過BERT 預訓練模型對處理好的古籍文本語料進行二次預處理,提升部分詞的特征權重;再通過TextRCNN 的卷積神經網絡(CNN) 實現對局部文本語料的細粒度處理;然后通過TextRCNN 的循環神經網絡(RNN)和雙向長短時記憶網絡(BiLSTM)捕獲長文本語料中的局部特征及其上下文語義關聯性;最后,利用多頭注意力(multihead attention,MHA)機制[43]實現對關鍵特征的權重加權,提升模型整體主題分類識別效果,最終實現對古籍文本的主題分類推薦任務。

(4)主題推薦模型評估模塊:將處理好的古籍文本語料按照8∶1∶1 分為訓練集、測試集和驗證集。通過詳細的對比實驗,計算各個模型的精確率(precision)、召回率(recall)、F1 值(F1-score)和準確率(accuracy),判斷各模型主題分類推薦效果。最后,運用混淆矩陣(confusion matrix)判斷本文模型在識別古籍文獻各事件類型主題間的效果。

2.2 多視圖融合

深度學習中的多視圖融合(multi-view fusion)是指對同一研究對象從不同視圖(視角)通過引入函數來模擬特定的視圖,利用相同冗余視角來優化函數本身,結合不同視圖間的互補性和協調性[44],對其實現信息補充,完成在分析或預測任務時處理不同類型(特征)的過程,從而提升模型整體的準確性。傳統文本主題推薦僅從實體視圖進行主題分類推薦研究,具有一定的局限性。由于實體詞屬性通常以人物、地點、事件等名詞為主,僅能淺層次表達文本語義,缺乏考慮關系(觸發詞)與實體詞間的位置關系對深層語義的描述。

為此,本文增設前提條件:古籍文本數據經過文本預處理和特征提取后所形成的特征向量V(d)符合

的計算方式。其中,文檔d包含n個特征詞和對應權重;ti表示文檔d中第i個特征詞;wi(d)表示特征詞ti在文檔d中的權重大小。

本文是對古籍文本進行主題分類推薦研究,結合古籍文本語料特征,選擇主體、客體和關系三個核心視圖進行多視圖融合研究,其融合原理如圖2所示。

圖2 古籍文本語義特征多視圖融合原理

以古籍文本《左傳》(隱公四年)中“故/c 宋公/nr、/w 陳侯/nr、/w 蔡人/n、/w 衞人/n 伐/v 鄭/ns。/w”為例,主體視圖特征提取為“宋公/nr、/w 陳侯/nr、/w 蔡人/n、/w 衞人/n”,客體視圖特征提取為“鄭/ns”,關系視圖特征提取為“伐/v”。由圖2 可以發現,多視圖融合算法將原本的主體視圖(F1)、客體視圖(F2)、關系視圖(F3)有效關聯融合為U1、U2、U3、U4、U5、U6和U7區域,其劃分原理為

在本文所使用的多視圖融合算法中,由于圖2所示的7 個區域中,每個區域迭代次數不同,因此,需對不同區域設置不同權重系數進行區分。整個多視圖融合區域劃分為單層視圖(U1、U2、U3)、雙重交叉視圖(U4、U5、U6) 和多重交叉視圖(U7),其權重加權原理為

其中,S表示經過多視圖融合后的特征向量;wi表示所處區域的權重系數;Vi表示進入不同區域的特征詞向量。

2.3 預訓練模型

古籍文本相較于傳統自然語言,存在命名規則復雜化、語義歧義多樣化等復雜性問題,且存在大量省略語句,大大加深了上下文之間語義的關聯性。因此,需要對古籍文本進行領域數據夯實,構建契合語料需求的預訓練模型,提升模型主題推薦效果。本文選擇谷歌自然語言處理實驗室2018 年提出的通過雙向Transformer 捕獲目標語句中雙向關系的預訓練語言模型[42]作為預訓練模型。

古籍文本中的實體詞在不同位置包含的語義不同,而BERT 模型的網絡結構[42](圖3)能夠充分考慮詞嵌入、句嵌入和位置嵌入的關系特征,較好補全分詞后語義的完整性,增強字向量的語義表示,能夠更好地保留原古籍文本所含的文本信息。其中,W1,W2,…,WN為BERT 模型的輸入向量,V1,V2,…,VN為BERT模型的輸出向量,Trm 表示Transformer編譯器。本文通過BERT 模型預訓練古籍文本語料知識,結合多個Transformer 雙向編譯器對古籍文本字符進行位置編碼和語義編碼,并對分詞做注意力機制加權賦值以獲取詞間關聯性、捕獲上下文語義。Trans‐former 編碼器結構[42]如圖4 所示,其由N組自注意力機制(self-attention)和前饋神經網絡(feed for‐ward)構成,通過計算輸入BERT 模型的字向量矩陣的值矩陣(value,V)、鍵矩陣(key,K)和查詢矩陣(query,Q)捕獲古籍文本不同詞間存在的關聯性和重要性,其計算公式為

圖3 BERT模型的網絡架構[42]

圖4 Transformer編碼器結構[42]

考慮到《左傳》文本多為短語句,在此設定輸入向量dk的維度為5。

2.4 DJ-TextRCNN模型

卷積神經網絡(CNN)通常被認為屬于計算機視覺領域,直至2014 年,Kim[45]對CNN 模型的輸入層進行變形,將原本需要輸入二維圖像數據變形為輸入一維自然語言, 提出了文本分類模型TextCNN。TextCNN 模型旨在通過降低神經網絡的模型參數、簡化任務煩瑣度,實現對局部文本數據的特征提取,并根據卷積核大小實現不同細粒程度的文本分類任務。由于TextCNN 模型是依據CNN模型變形而成的,因此,存在全局池化層易造成結構信息丟失的問題,且無法獲取長文本中上下文語義間的關聯性和特征詞的強度分布。2016 年,Liu等[46]在循環神經網絡(RNN)基礎上提出TextRNN模型,旨在運用RNN 捕獲文本語料的時序特征,解決捕獲長序列上下文語義依賴關系的問題。由于TextRNN 模型是依據RNN 模型變形而成的,需進行大量參數調整,并行效果較差且運行速度慢。針對TextCNN和TextRNN的局限性,Lai等[9]提出TextRCNN模型,結合TextRNN 捕獲文本時間序列的特征,構建雙循環神經網絡實現對上下文語義特征的提??;結合TextCNN 利用最大池化層,實現對目標語料的細粒度特征提取,從而實現文本分類任務。

但古籍文本中的主體、關系和客體中存在大量的詞性兼類現象,以古籍文本《左傳》中關系(觸發詞)“朝”為例。

(1)“朝”的一般用法,主卑賓尊,后接賓語、受事賓語(“王,公”或者某個政治團體),譯為“朝見,拜見”[47],在《左傳》中,多指以卑見尊,共計出現146 次,其中后接受事賓語28 次(鄭伯如周,始朝桓王也。[隱公六年])[48];后接代詞“之”1 次(凡諸侯即位,小國朝之,大國聘焉。[襄公元年])[45];后接“于”補賓語23 次(而隨蔡侯以朝于執事。[文公十七年])[47];后接修飾語“焉”3 次(吳將伐齊,越子率其眾以朝焉。[哀公十一年])[47];賓語省略85 次(七人執鄭詹,鄭不朝也。[莊公十七年])[48]。

(2)“朝”的使動用法,主尊賓卑,譯為“使……朝見”[44],共計出現10次(衛侯以國讓父兄子弟,及朝眾。[僖公十八年])[48]。

以關系(觸發詞)“朝”為例,使動用法(謂+賓)形式上與一般用法(謂+賓)很難區分,須在具體語境下才能識別。雖然兩者都帶賓語,但一般用法為受事賓語(“朝”的承受者),使動用法為使動賓語(“朝”的發出者)。無論受事賓語還是使動賓語,它們都為實體詞(名詞或名詞性詞組),需進行更深層次的語義挖掘。本文結合古籍文本的特點對TextRCNN 模型進行改進,構建如圖5 所示的DJ-TextRCNN 模型。①利用多視圖融合算法構建主體、關系和客體的特征融合,運用BERT 預訓練模型進行特征向量轉換;②構建TextCNN 模型并設置三類不同卷積核(2、3、4)和最大池化層實現對長文本典籍語料的初步語義局部特征提??;③結合BiLSTM 模型實現不同方向對同一特征詞的長距離依賴關系和上下語義知識識別,加深對局部特征詞的關聯語義挖掘;④結合多頭注意力(MHA)機制實現對主題分類推薦任務貢獻度大的特征詞聚焦,弱化常用詞和無意義詞造成語義歧義的影響,進一步提高整體模型的運行效率;⑤連接全連接層調用softmax 函數實現對古籍文本的智能主題分類推薦。下文將詳細闡述DJ-TextRCNN 模型的優化原理。

考慮到模型全程對局部關鍵特征的加權處理和對關鍵特征詞上下文語義信息的捕獲,DJ-TextRCNN 模型的真實處理過程采用n-gram 分詞進行古籍文本分詞處理,可以較好地保存關鍵特征詞的上下文語義信息和局部關鍵特征。通過將原本為單層的TextCNN 模型改進為卷積核分別為2、3、4 的三層卷積核(圖5),實現通過三層不同卷積層的卷積滑動來提取古籍文本的局部特征。

在此做出前提假設:一個n維長度的古籍文本經過多視圖特征融合后,可以表示為n階k維詞向量,即

其中,⊕表示向量拼接;xi表示第i個特征詞對應的k維詞向量。

CNN 模型通過設置卷積核分別為2、3、4 的卷積層對多視圖融合的n階k維詞向量進行特征向量過濾,以實現局部特征提取。通過構建三層卷積核對上一階段輸入的n階k維詞向量矩陣進行卷積操作,濾波器根據多視圖融合劃分的不同區域進行關鍵特征提取,輸出的新特征向量記作卷積層的計算過程為

由圖5 可知,多視圖特征融合后的古籍語料的特征詞i對應的詞向量為Vi,d表示卷積核的大小,wd表示對應大小的卷積核,bd表示偏置項。DJTextRCNN 模型選擇的激活函數f為常用函數ReLU。

三層卷積處理后的新特征向量,通過映射得到古籍語料的局部特征集合Hd,映射過程計算公式為

DJ-TextRCNN 模型選擇MaxPooling 技術實現對局部特征集合Hd的最大池化處理,將經過三層卷積層輸出的古籍文本主題特征集通過最大池化層進行采樣處理,并結合

實現對古籍文本特征集的局部特征最優解Mi的計算,降低數據維度,縮減特征向量和網絡參數大小,減少無關計算量。

池化層提取局部特征最優解Mi后,為了方便后續BiLSTM 層進行更深層次的細粒度文本挖掘,將所得的局部特征最優解Mi組合形成輸出向量X,輸出方式為

通過公式(5)~公式(9)的三層CNN 模型處理,即可實現對古籍文本向量的深層次細粒度的特征提取,將其輸出向量X作為后續BiLSTM 層的輸入向量,完成對古籍文本主題語義特征的識別。

雙向長短時記憶網絡(BiLSTM)是由兩條不同方向的循環神經網絡(RNN)的變體長短時記憶網絡(LSTM)組成的,其網絡結構[38]如圖6 所示。該模型通過記憶狀態單元保留輸入向量X的重要信息,遺忘次要信息,能夠有效降低信息維度,較好地避免梯度爆炸(消失)現象的發生。

圖6 BiLSTM模型網絡結構[38]

以《左傳》(文公十五年)為例,“曹伯來朝,禮也。諸侯五年再相朝,以修王命,古之制也”[47],觸發詞“朝”因為“來朝”[9]結構用法,隱含賓語,需要結合具體語境才能得知隱含賓語“晉”??紤]到上述語料情況在古籍文本中經常出現,DJ-TextRCNN 模型經過三層卷積核處理后的特征向量通過BiLSTM 模型能夠更好地捕獲典籍文本相同時間段的特征詞的長距離依賴關系,還能較好地獲取上下文語義特征和共現特征。

從圖6 可知,BiLSTM 模型分別從前后兩個方向對古籍文本語料的特征詞進行深度訓練,捕獲各特征詞的時序特征,結合上下文語境進行細粒度的古籍主題分類推薦。語義提取過程為

DJ-TextRCNN 模型的BiLSTM 層的最終輸出結果yt所用激活函數f選擇的是sigmoid,激活函數g選擇tanh。以t時刻輸入圖6 模型的古籍文本的向量St為例,上層LSTM 層獲取輸入上文序列信息(Lh0,下層LSTM 層獲取輸入下文序列信息wn表示各位置的權重參數。

古籍文本的文本挖掘對模型具有較高的語義理解要求,需全局語義理解。但BiLSTM 層輸出的結果yt存在些許冗余信息和噪聲數據,需引入注意力(attention)機制進行特征精調,減少無關參數,降低模型整體計算壓力。傳統注意力機制側重于歸一化處理當前位置的注意力權重,以權重和的形式表示整個句子的隱含向量,無法考慮上下文語義對當前位置的語義影響,不適合古籍文本的語義挖掘。針對古籍文本側重于對上下文語義信息關聯性和局部關鍵特征的高要求,DJ-TextRCNN 模型在BiLSTM 層后引入多頭注意力(MHA)機制,網絡結構[43]如圖7 所示。

圖7 多頭注意力機制網絡結構[43]

多頭注意力機制將先前處理好的結果矩陣yt作為輸入,通過線性變換轉化為三個維度相同的矩陣:值矩陣(V)、鍵矩陣(K)、查詢矩陣(Q)。第i個線性變化下Qi、Ki、Vi對應的轉移矩陣分別是即

對Qi、Ki、Vi進行縮放點積注意力計算,將三個矩陣融合為單個注意力矩陣hi,計算過程為

其中,dk為三個矩陣的維度,能夠防止出現梯度爆炸或超負荷計算。

最后,將計算出的多個注意力矩陣hi進行拼接,通過

對其實現線性變化,得出t時刻下典籍文本特征矩陣Mt(Q,K.V)。其中,C表示連接操作;WO為變換矩陣。

3 實驗分析

本文采用Keras 和TensorFlow 深度學習框架構建神經網絡模型,編程語言為Python 3.9。對本文提出的DJ-TextRCNN 模型能否實現更細粒度、更深層次、更多維度的古籍文本語義挖掘并提升主題推薦的準確性進行詳細對比實驗,以驗證DJ-Text RCNN 模型的優勢。

3.1 實驗環境及數據集

為提高整體算力,本文采用GPU 加速器滿足深度模型對算力的需求。實驗環境方面,采用Win‐dow11 64 位操作系統,CPU 為Inter(R) Core i9-12900H,內存為64 GB,GPU 為NVIDIA GeForce RTX 3070 Ti Laptop,深度學習參數設置如表1所示。

表1 DJ-TextRCNN模型超參數設置

古籍文本作為中華傳統文化傳承的重要載體,是中華五千年文化智慧的結晶,能較好地反映我國源遠流長的文化底蘊。然而,現代文本與古籍文本在語言表達、文字風格和文字形式上的差異,在一定程度上制約了古籍數字人文研究的發展。相比于現代文本風格平實、表達簡潔、語句精練的特點,古籍文本側重于將情感滲透在文字中,更注重風格古雅、表達抒情、語句押韻,需結合古籍文本的文字格式、表達方式、文字風格進行與之對應的特征提取。

《左傳》原名《左氏春秋》,也被稱為《春秋左氏傳》,是先秦六十部典籍中我國首部敘事詳盡的編年體史書,與《公羊傳》《谷梁傳》并稱“春秋三傳”,其在典籍中的歷史價值和地位是被普遍認可的。其始于魯隱公元年(公元前722 年),止于魯哀公二十七年(公元前468 年),詳細記錄了期間兩百余年百家諸侯國所發生的真實事件,可作為研究春秋期間歷史發展和社會發展的重要語料數據[10]。因此,選取《左傳》作為實驗的語料文本,對本文提出的多視圖融合DJ-TextRCNN 的古籍文本主題推薦模型進行效果檢驗。

本課題組前期對古籍《左傳》語料數據進行了系統的數據處理,包括自動分詞、詞性標注、語義標注、事件抽取、命名實體識別、實體消歧、語義關系抽取和觸發詞識別;嘗試通過構建中華文化知識表達體系實現面向大眾的查詢應用、面向學者的人文議題助力以及面向產業的古籍內容活化[49]。前期大量的語料預處理研究保障了本文所使用的數據語料的精準性,中華文化知識表達體系的構建也為本文的研究思路提供了理論支撐。

本文使用本課題組前期標注的《左傳》語料數據[46]進行對比實驗論證,按照8∶1∶1 分為訓練集、驗證集和測試集,如表2 所示。

表2 典籍文本數據集主題類型分布

但在本課題組前期的面向大眾的查詢應用中,僅以實體(人物、地點、事件)為中心,缺乏嘗試不同視圖相融合的、更為全面的查詢應用;前期的面向學者的人文議題助力,分別從人物合作網絡、團體對抗網絡、人口流動路線、事件空間分布四個角度進行分析研究,缺乏考慮事件背后潛在的深層次真實原因的探究;前期的面向產業的典籍內容活化利用,分別從宴請飲食、兵器考述、事件重現、社會畫像的單維度事件敘述進行活化,重現典籍所記錄的歷史事件,但仍欠缺一種對事件本身潛在主題推薦的活化應用[49]。針對上述不足之處,本文在前期研究的基礎上嘗試融合“主體、關系、客體”三個視圖,對其語義潛在信息進行更深層次、更細粒度、更多維度的主題推薦應用研究。本文的研究成果有效解決了科研工作者篩選領域研究主題時面臨的困難,為古籍文本的領域主題研究提供了數據支撐,對中華文化深層次挖掘起到了一定的指導作用。

3.2 評價指標

古籍文本主題分類推薦實驗采用四個常用于文本分類的評價指標評價本文提出的DJ-TextRCNN 模型的魯棒性,分別是精確率(precision)、召回率(recall)、F1 值(F1-score) 和準確率(accuracy),各評價指標計算公式為

其中,TP(true positive)表示正確識別的正確樣本數量;FP(false positive)表示錯誤識別的錯誤樣本數量;TN(true negative)表示正確識別的錯誤樣本數量;FN(false negative)表示錯誤識別的正確樣本數量;accuracy 表示預測正確的數量占總預測量的比值,能直觀地評價所使用模型判斷《左傳》語料主題的準確性。

3.3 無視圖的主題推薦結果分析

為提升各模型對比實驗的真實性和說服力,本文采用10 次交叉實驗結果的平均值作為模型效果的評價結果,從而避免單次實驗產生的噪聲對實驗結果的誤判。

本文提出的DJ-TextRCNN 模型的《左傳》主題分類效果與機器學習(decision tree、random forest、logistic regression、SVM、multinomial navie Bayes)、深度學習(LSTM、GRU、TextCNN、TextBiRNN、Tex‐tRCNN、TextAttRCNN)、Transformer 模型(BERT‐CNN、 BERTLSTM、 BERTRCNN、 BERTattRCNN)的對比結果如表3 所示。

表3 非多視圖下各模型實驗效果對比

由表3 可以發現,本文提出的DJ-TextRCNN 模型在《左傳》主題分類推薦任務中能夠取得較好效果,其精確率、召回率、F1 值和準確率分別是76.15%、75.96%、75.92%和75.96%,比現有主流模型均有一定程度的提升。相比于機器學習模型中效果最佳的SVM,DJ-TextRCNN 模型的準確率提升了50.02 個百分點;相比于深度學習模型中效果最佳的TextCNN,DJ-TextRCNN 模型的準確率提升了7.56 個百分點;相比于Transformer 模型中效果最佳的BERTAttRCNN,DJ-TextRCNN 模型的準確率提升了1.06 個百分點。實驗結果表明,融合BERT 的Transformer 模型效果普遍優于機器學習和深度學習模型,其主要原因是BERT 預訓練模型擁有大量參數,能夠更好地表示《左傳》知識。相較于其他Transformer 模型,DJ-TextRCNN 模型中的三層CNN能實現更細粒度的文本特征提取,BiLSTM 網絡能實現上下語義知識識別,多頭注意力(MHA)機制能聚焦對主題推薦任務貢獻度大的特征詞。

3.4 多視圖融合的主題推薦結果分析

為進一步分析Transformer 模型在不同視圖下對《左傳》主題分類的效果,本文分別從單視圖(主體、關系、客體)、雙視圖(主體-關系、主體-客體、關系-客體)和多視圖融合(主體-關系-客體)進行對比分析,結果如表4 所示。

表4 多視圖融合下transformer模型實驗效果對比(單位:%)

由表4 可知,本文提出的多視圖融合算法對融合BERT 預訓練模型的Transformer 模型有著較好的提升效果,列舉的五種模型的《左傳》主題分類準確率平均提升了13.01 個百分點。單視圖中,“關系”視圖(觸發詞)提升最為明顯,準確率平均提升了8.46 個百分點;“客體”視圖(位于觸發詞后的實體)次之,準確率平均提升了7.01 個百分點;最后是“主體”視圖(位于觸發詞前的實體),準確率平均提升了4.07 個百分點。雙視圖中,“關系-客體”視圖提升最為明顯,準確率平均提升了11.60 個百分點;“主體-關系”視圖次之,準確率平均提升了10.89 個百分點;最后是“主體-客體”視圖,準確率平均提升了8.56 個百分點。

本文提出的DJ-TextRCNN 模型的《左傳》主題分類推薦任務在各視圖下均取得最好的準確性,在“主體”單視圖下的準確率為78.94%(效果提升了2.98 個百分點),在“關系”單視圖下的準確率為83.38%(效果提升了7.42 個百分點),在“客體”單視圖下的準確率為81.99%(效果提升了6.03 個百分點),在“主體-關系”雙視圖下的準確率為85.43%(效果提升了9.47 個百分點),在“主體-客體”雙視圖下的準確率為83.64%(效果提升了7.68個百分點),在“關系-客體”雙視圖下的準確率為86.23%(效果提升了10.27 個百分點),在“主體-關系-客體”多視圖融合下的準確率為88.54%(效果提升了12.58 個百分點)。

綜上所述,通過進一步對比分析《左傳》主題分類結果樣本,發現多視圖融合算法對單位詞位置特征的權重加權有助于BERT 預訓練模型更好地捕獲上下文語義信息,生成更為優質的向量特征,提升后續主題分類器對《左傳》文本的主題分類推薦任務的準確率。本文提出的DJ-TextRCNN 模型在多視圖融合的語義增強基礎上,能有效學習“主體”“關系”“實體”視圖的特點,實現對《左傳》文本語義知識的深層次挖掘,進一步提升整體模型效果,且優于其他Transformer 模型,能較好地實現古籍文本主題分類任務,完成主題推薦。

3.5 多視圖融合的不同主題推薦結果分析

本文以F1 值詳細對比DJ-TextRCNN 模型在《左傳》文本的政治、人物、地理、從屬、軍事、風俗、經濟、外交八個主題下的分類推薦結果,如表5 所示。其中,多視圖融合視圖下的人物、地理、從屬、軍事、風俗、經濟、外交主題推薦效果最佳, F1 值分別是 91.13%、 92.77%、 81.59%、89.71%、84.85%、87.85%、92.79%;“關系-客體”視圖下的政治主題效果優于多視圖融合視圖效果,F1 值是82.05%。結合《左傳》語料發現,政治類主題的語料多為省略句。例如,“將/d 墮/v 三/m 都/n,/w 於是/c 叔孫氏/nr 墮/v 郈/ns。/w”中“關系”視圖為“墮/v”,“客體”視圖為“三/m 都/n”和“郈/ns”,而“主體”視圖的前半句為“空集”,后半句為“叔孫氏/nr”;但在語料中,前半句真實“主體”應為“仲由”,一定程度上造成了相比于“關系-客體”視圖的語義缺失。后期再對省略句語料標注時,應結合文本內容補充省略知識,以提升模型準確性。

表5 《左傳》不同主題下推薦效果評估(單位:%)

由表5 可以發現,本文提出的DJ-TextRCNN 模型能較好地實現對《左傳》文本主題的預測和推薦,具有較好的魯棒性和準確性。但后期需對文本實驗語料中的省略句語料進行信息補充,減少視圖信息空缺現象的發生,進一步提升多視圖融合視圖下模型預測的準確性。

本文根據《左傳》文本主題方向的分類結果繪制了如圖8 所示的混淆矩陣,其橫軸為真實的主題類別,縱軸為預測的主題類別。其中,主題類別預測正確數最多的是地理主題,共預測正確263 句;從屬主題次之,共預測正確262 句。預測錯誤最少的主題類別是外交,共錯誤預測9 句;地理主題次之,預測錯誤17 句。預測錯誤最多的主題類別是風俗,共錯誤預測38 句,其中14 句風俗主題被錯誤預測為政治主題,10 句從屬主題被錯誤預測為人物。內容分析發現,標注為政治主題的內容分為四類,分別是“衝突殺戮”“築城”“叛亂”和“冊立即位”;標注為風俗主題的內容分為九類,分別是“見面遇見”“生養”“人物關係-態度”“婚姻”“宴請|飲食”“祭祀”“蔔筮”“製作”和“休閒”;標注為人物主題的內容分為六類,分別是“死亡”“人物特征”“疾病”“人物動作”“聽說告訴詢問”和“等待”。由于風俗類主題中包含的“見面遇見”與政治類的“衝突殺戮”中部分“衝突”類信息的語義接近,易造成模型誤判;人物主題中包含的“人物特征”與風俗類的“人物關係-態度”類信息的語義接近,易造成模型誤判。

圖8 各主題方向混淆矩陣對比

綜上所述,實驗結果充分證明了本文提出的DJ-TextRCNN 模型在古籍文本主題分類與推薦任務中能進行更細粒度、更深層次、更多維度的語義挖掘,模型整體具有較好的魯棒性和準確性;同時,體現了本文提出的基于“主體-關系-客體”的多視圖融合的語義增強模型對典籍文本特征的權重加權,以及對模型整體精度提升的顯著性。

4 結束語

面對古籍知識庫中大規模的數字化古籍文獻,依托傳統編目分類和規則匹配的主題推薦方法不足以支撐當下數字人文研究的需求。為保障古籍科研工作者短時間內獲取古籍文本主題的準確性,推薦符合其研究領域主題需求的古籍文本,本文參考并深入分析推薦算法,針對傳統主題推薦方法僅從單一實體視圖角度實現主題推薦,缺乏考慮古籍文本在語言表達、文字風格和文字形式上與現代文本的差異性,古籍文本的實體位置與觸發詞之間的關聯性,古籍長文本數據間的上下文語義關聯性,一定程度上會造成文本噪聲現象的產生,以及較難實現對深層次文本特征的提取的問題,提出一種多視圖融合DJ-TextRCNN 的古籍文本主題推薦算法,有效實現了古籍文本的自動分類,可為古籍研究者提供更精準的主題推薦服務。具體貢獻如下。

(1)面對古籍知識庫中大規模的數字化古籍文獻,傳統編目分類和規則匹配方法存在工作效能低、過度依賴專家知識、花費大量人力和物力成本、缺乏對古籍文本自身語義的深層次挖掘的問題。首先,本文通過BERT 預訓練模型對處理好的典籍語料進行二次預處理,提升部分詞的特征權重;其次,通過TextRCNN 的卷積神經網絡(CNN)實現對局部文本語料的細粒度處理;再其次,通過TextRCNN 的循環神經網絡(RNN)和雙向長短時記憶網絡(BiLSTM)捕獲長文本語料中的局部特征及其上下文語義關聯性;最后,利用多頭注意力(MHA)機制實現對關鍵特征的權重加權,提升模型整體主題分類識別效果,最終實現對典籍文本的主題分類推薦任務。研究結果表明,本文構建的DJ-TextRCNN 模型在古籍文本的主題推薦任務中能夠取得較好效果,其精確率、召回率、F1 值和準確率分別是76.15%、75.96%、75.92% 和75.96%,比現有主流模型均有一定程度提升。相比于機器學習模型中效果最佳的SVM,DJ-TextRCNN 模型的準確率提升了50.02 個百分點;相比于深度學習模型中效果最佳的TextCNN,DJ-TextRCNN 模型的準確率提升了7.56 個百分點;相比于Transformer 模型中效果最佳的BERTattRCNN,DJ-TextRCNN 模型的準確率提升了1.06 個百分點。因此,本文構建的DJTextRCNN 模型能較好地完成對古籍文本的更細粒度、更深層次的語義挖掘。

(2)傳統古籍文本研究僅從實體視圖進行數字人文研究,具有一定的局限性。由于實體詞屬性以人物、地點、事件等名詞為主,僅能淺層次表達文本語義,缺乏考慮關系(觸發詞)與實體間的位置關系對深層語義描述的影響。本文考慮到觸發詞與實體的互補,嘗試融合主體(位于觸發詞前的實體)、客體(位于觸發詞后的實體)和關系(觸發詞)三個視圖,更多維度地挖掘文本語義。研究結果表明,多視圖融合下本文設計的DJ-TextRCNN 模型在各視圖下均取得了最好的準確性。在“主體”單視圖下的準確率為78.94%,效果提升了2.98 個百分點;在“關系”單視圖下的準確率為83.38%,效果提升了7.42 個百分點;在“客體”單視圖下的準確率為81.99%,效果提升了6.03 個百分點;在“主體-關系”雙視圖下的準確率為85.43%,效果提升了9.47 個百分點;在“主體-客體”雙視圖下的準確率為83.64%,效果提升了7.68 個百分點;在“關系-客體”雙視圖下的準確率為86.23%,效果提升了10.27 個百分點;在“主體-關系-客體”多視圖融合下的準確率為88.54%,效果提升了12.58 個百分點。同時,DJ-TextRCNN 模型多視圖融合視圖下在人物、地理、從屬、軍事、風俗、經濟、外交主題推薦效果最佳,F1 值分別是91.13%、92.77%、81.59%、89.71%、84.95%、87.85%、92.79%;“關系-客體”視圖下的政治主題推薦效果優于多視圖融合視圖效果,F1 值是82.05%。因此,本文提出的“主體-關系-客體”多視圖的特征融合算法能夠輔助DJ-TextRCNN 模型實現更多維度的語義挖掘,進一步提升模型的準確性。

總體而言,DJ-TextRCNN 模型中的三層CNN 能夠實現更細粒度的文本特征提取,BiLSTM 網絡能實現上下語義知識識別,多頭注意力機制能聚焦對主題分類任務貢獻度大的特征詞,通過多視圖融合權重加權,DJ-TextRCNN 模型能夠實現對古籍文本更為全面、更細粒度、更深層次的語義挖掘,在一定程度上提升主題推薦的準確性,加快古籍研究者對單一主題的語料采集速率,緩解研究壓力??紤]到本文在實驗過程中發現主題子分類下存在語義相似主題以及文本語料中存在省略句現象,未來,一方面,本文將補全省略句缺失的主體語料信息,提升模型整體精度;另一方面,將結合部分語義相似內容增設新主題,提出更精確的主題特征分類。

猜你喜歡
古籍視圖語料
中醫古籍“疒”部俗字考辨舉隅
關于版本學的問答——《古籍善本》修訂重版說明
關于古籍保護人才培養的若干思考
5.3 視圖與投影
視圖
我是古籍修復師
Y—20重型運輸機多視圖
SA2型76毫米車載高炮多視圖
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合