?

面向古詩詞的物象庫構建方法及其分布規律研究*

2024-02-21 15:05劉懋霖
圖書館雜志 2024年1期
關鍵詞:物象唐詩語料

劉懋霖 趙 萌 王 昊

(1 南京大學信息管理學院 2 江蘇省數據工程與知識服務重點實驗室)

0 引言

隨著古籍數字化工作的進行,古籍數字化資源的規模正不斷擴大,傳統的古籍開發與應用模式已經難以適應人文學科研究的需求[1]。如何更全面地利用這些數字化資源、發掘其中價值,是目前數字人文領域內亟待解決的問題之一。而古詩詞作為古籍文本的重要組成部分,同樣面臨這個問題?,F有的中文文本處理技術所使用的模型大多是由人工標注的現代漢語語料訓練而得,對古漢語文本的處理效果并不理想。胡昊天等[2]學者基于《四庫全書》,提出了Siku BERT 等利用深度學習方法處理古文自然語言的模型,在古籍自動分類方面取得了較高的準確率。除此之外,還存在一些基于不同語料的古籍實體識別研究[3—5]。但古詩詞是古漢語文本中用語更為簡潔、表達情感更為豐富的一類文本,與普通的古漢語文本具有較大差異。隨機抽取少量古詩詞利用基于《四庫全書》的預訓練模型進行分析后,發現其對古詩詞文本的分析效果有待提升。無監督模型不需要標注語料,但此類模型的準確率較低,難以投入使用。因此,現有文本分析模型并不適用于古詩詞文本的分析。

由于古詩詞文本在語義、語法上存在特殊性,專業領域以外的人通常難以理解大部分古詩詞,而請專家標注的成本又過于昂貴,研究者很難通過人工標注的方式獲取具有一定質量的古詩詞標注語料。在缺乏標注的情況下,對古詩詞進行全面的分析是不現實的,因而本文考慮從特定角度對古詩詞進行規?;治?。調查人文領域內的文藝鑒賞相關研究,發現學者常常從“象”的角度來分析古詩詞內容。中國古詩詞的創作大都寓志于形象之中,根據程修平[6]學者的研究,文學家所見之“物”映射在文學家的腦海中形成“象”,經加工之后能夠體現文學家內在的氣質神韻與情感表達,可稱之為“物象”。根據蔣寅[7]學者的研究,“物象”特指詩歌中由具體名物構成的成分,經由詩人情感加工后構成詩歌中的“意象”。由此,在該研究中將“物象”限定為古詩詞中出現的客觀名物,即所有可能包含作者某種情感的“物”,從而采用抽取“物象”的方法,對古詩詞進行規?;治?。

綜上所述,古詩詞存在因文字晦澀而難以獲取標注語料和規?;幚砝щy的問題。為解決上述問題,首先,本文提出從文藝鑒賞中“物象”的角度進行分析,在降低標注難度的同時保留了文本中的關鍵信息;其次,本文采用遷移學習的方法,使用古詩詞文本對預訓練模型進行再訓練,降低了抽取任務對標注準確率的要求;再者,根據標注難度、準確率要求的降低,本文提出先利用古漢語詞典對古詩詞進行自動標注,再根據物象抽取結果對詞典進行動態擴充的模型,實現了古詩詞文本的自動化、規?;幚?;最后,本文使用《全唐詩》資源以及部分宋代詩詞資源對模型進行驗證,成功構建物象庫并初步探索其分布規律。

1 相關文獻研究

本次研究屬于數字人文領域下古詩詞文本的知識庫構建研究,故該部分針對領域相關研究及方法進行文獻調研。調查古詩詞相關研究,發現大部分文獻都以單一類別的古詩詞為研究對象,屬于人文學科領域研究,較難為本文提供有效參考。調查數字人文領域下的相關研究,發現在數據化視角下,知識抽取相關技術已經廣泛應用于數字人文研究[8],使得一些人文資料在各個維度上分散的問題得到有效解決[9]。已有學者將深度學習中的預訓練方法應用于古籍知識組織領域[10—14],取得了較好的效果,本文將用其中深度學習的思想,使其更加適用于本次研究中物象庫構建這一目標。領域內存在針對古詩詞文本的相關研究[15—18],此類研究大多選取特定角度對古詩詞進行分析,例如情感、空間軌跡等。其中有關唐詩知識圖譜構建的研究[19]與本文較為相關,該研究設計了唐詩本體模型,并且從Web 獲取相關數據,對其進行知識抽取、融合、推理等技術處理,構建了唐詩知識圖譜。該本體模型將意象、感情等屬性與詩文掛鉤,定義了許多同位、引用、關聯等關系。但在知識抽取方面,上述研究采取了無監督的抽取方法,用信息熵的方法構建分詞模型。由于缺乏標注語料,無法得知其分詞正確率。而本文擬在更大規模的物象上來進行古詩詞分析,以彌補古詩詞領域內相關詞典構建的空白。

就領域知識庫構建而言,其核心是將特定領域的資料轉化為數據的形式,以一定的結構組織存儲于計算機當中,其難點在于資料的數字化需要耗費大量的人力物力,目前仍沒有較好的方法來完成此項工作;即使資料已經數字化,出于分析與研究的需求,仍需要耗費人力進行數據的標注處理。為了解決這一問題,有研究提出將自動化與眾包相結合,再進行人工審核的構建大型庫的方法[20]。該方法利用識別模型和已經生成的數字化資料自動構建初始庫,之后將任務分發到用戶并由人工審核成果,這意味著庫的構建與應用同時進行,以標注效率的降低來換取標注成本的降低,成功構建庫。然而這種方法的應用情景較為特殊,在對用戶號召力不足或者對資料解讀有專業需求等大部分情況下較難取得很好的效果。因此,對于專業程度較高的古詩文而言,上述基于人工標注的知識庫構建方法并不適用。

調查數字人文領域內主流研究方法,目前針對文本材料的研究大多采用有監督的機器學習方法來完成,需要花費大量的人力來標注數據作為訓練材料[21]。存在以無監督的方法進行數字人文領域的研究[22],該研究借助已有的少量詞庫,以統計的方式發現未登錄詞,但該方法依賴數據規模以及詞復現的頻數,實驗效果有待提升。調查知識抽取相關算法研究,發現該項技術適用于各種語言,且已經被廣泛應用于各領域。在數字人文領域內,目前基于深度學習的知識抽取技術被廣泛采用[23—29],其中應用了BERT 及其變體模型的研究效果提升較為明顯。知識抽取的有監督解決方案仍然依賴于大規模標注語料,增加標注量能有效提高識別正確率。同時有研究應用多語種訓練[30],通過讓不同的語種共享同一網絡進行訓練的方式,使網絡保留一些跨語種的詞匯特征,也能有效提高知識抽取模型的性能?;诖?,本文使用古詩詞文本對RoBERTa 預訓練模型進行再次訓練,使得深度學習網絡保留了現代漢語以及古詩詞中的一些特征,從而提升模型對古詩詞文本的處理效果。

綜上,目前古詩詞知識庫的構建研究仍存在如下問題:①在古詩詞領域,尚未出現精確度較高的相關詞典或詞庫;②主流解決方案僅適用于專業性較弱的領域,對于專業性較強的領域,構建相關知識庫仍需要大量具有專業知識的人力進行標注。針對上述問題,利用少量的、與古詩詞文本相關度較高的古漢語詞匯做為初始核心詞典,可以有效解決古詩詞語料標注困難的問題。而深度學習中的預訓練方法使得模型在處理文本時具有較好的語義識別能力,降低了機器學習模型對語料標注量的需求,同時具備較高的準確率。本文將以《全唐詩》資源為例,在冷啟動的情況下,利用關聯度較高的外來詞庫與唐詩文本共同生成粗標注語料,隨后再用深度學習與機器學習相結合的方法對語料進行擴充標注,最終得到正確率較高的物象抽取模型,并將抽取結果構建成唐詩物象庫。

2 數據和方法

2.1 研究框架

本文提出了一種面向古詩詞的物象庫構建方法,如圖1 所示。該模型先從Web 獲取初始語料,再利用充當核心詞庫的古漢語詞匯集對古詩詞文本進行粗標注以生成學習語料,隨后將學習語料按照8∶1∶1 的比例劃分為訓練集、驗證集和測試集,并輸入古詩詞物象抽取模型進行訓練。由于模型識別結果存在錯誤,且預訓練模型初始便具備一定的語義,所以抽取錯誤的結果中很可能存在合法的未登錄詞。訓練結束后,又利用抽取結果中的合法未登錄詞對核心詞庫進行擴充,再重復上述標注直至訓練的流程。當擴充詞庫結束、模型達到收斂后,將得到古詩詞物象識別模型以及物象庫,最終將其應用于古詩詞作者、物象等元素的分布規律分析。

圖1 面向古詩詞的物象庫構建模型

2.2 數據來源與簡介

本文使用的實驗數據由兩部分構成。第一部分為來源于文學100 網站的《全唐詩》,該份數據共包含900 卷唐詩,合計42 862 首,涵蓋了李白、杜甫、李世民等2 528 名著名唐代詩人的作品。其中每條數據包含一首詩的所屬卷號、標題、作者以及詩文內容?!度圃姟钒凑兆髡呷后w進行編排,其順序為帝王、后妃、宗室諸王、公主宮嬪、樂府詩、作者詩、無名詩、聯句、斷句、名媛、僧、道、仙、神、鬼、夢、諧謔、補遺、詞。其中仙、神等群體來自世人對作者的一些稱號,例如著名醫學家孫思邈就被劃分在“仙”的群體中。

原始數據的第二部分來源于由商務印書館出版的《古代漢語詞典(第2 版)》。首先對詞典進行掃描處理獲取PDF 文件,之后對PDF文件進行文字識別,獲取以行組織的CSV 文件。對該CSV 文件使用正則表達式匹配特定位置的復音詞,清洗整理后構成初始詞匯表。由于文字識別技術的局限性,存在部分識別異常的詞匯。去除識別異常詞匯以后,剩余詞匯24 688 個。由于上述數據僅包含復音詞,故又從《古漢語常用字字典》中獲取古漢語常用單字約3 900 個,與復音詞共同作為初始古漢語詞庫。

2.3 初始標簽構造與語料生成

將復音詞逐個使用科大訊飛開放平臺提供的分詞API 進行分詞處理,對詞匯的正確性進行粗略檢測,并賦予詞匯初始詞性,保留其中長度大于1、未被切分且詞性為名詞的部分。隨機抽選其中10%的詞匯,查詢其釋義并人工比對,從而判定這些詞匯的合法性。經檢驗,其中82.9%的詞匯存在釋義,為合法詞匯。再用這些詞匯去匹配古詩,共14 577 個詞匹配成功,作為初始詞典。人工定義本次任務中的名詞類別如表1 所示,包括地名、時間名詞、方向名詞、普通名詞4 大類別,其中沒有更細劃分及數量太少的名詞都歸入了“普通名詞”一類中。之后引入只具備名詞詞性的古漢語單字,利用模型字向量由上下文動態決定的特點進行學習,直至模型能較準確識別古漢語語境中的單字名詞,由一詞多義引發的識別錯誤率較低。

表1 物象類別定義

該研究中的數據標注部分使用“BIO”方法,學習語料生成流程如圖2 所示。B 表示該位置是名詞的起始位置,I 表示該位置位于名詞的內部,O 表示該位置的字與本次任務無關。使用核心名詞庫中的詞匯與古詩文進行匹配,匹配成功的部分進行標注。位置信息與詞性信息以“—”相連接,例如地名“秦川”,詞性標簽為地名“PLC”,對應詩文序列為[“秦”,“川”],對應標簽序列為[“B-PLC”, “I-PLC”]。在標注的過程中同時生成標簽序列和詩文序列,由兩組序列共同構成學習語料。之后按照8∶1∶1 的比例將學習語料劃分為訓練集、測試集以及驗證集。

圖2 學習語料生成方式

2.4 模型訓練與未登錄詞發現規則

本次實驗使用RoBERTa-BiLSTM-CRF 網絡模型。該模型是主要由輸入層、嵌入層、編碼層、BiLSTM+CRF 層與輸出層構成的。輸入層將數據處理為適應于模型的結構。嵌入層的作用是將正整數轉化成長度一定的向量。編碼層包含了24 層Transformer 結構,該結構由編碼器與解碼器構成[31]。編碼器主要由多頭注意力機制構成。本次實驗設計了迭代訓練的流程,既可以適應學習語料的訓練,也可以適應外來語料的擴充訓練。

由于模型準確率不是100%,所以存在被模型識別,但在詩文中沒有標注的詞匯。預訓練模型的干預下,字向量在訓練前就對預訓練語料具備非常好的語義,故可以認為預測失誤的樣例中存在合法的名詞。本次研究中需要一定的規則來判定識別失誤案例中的合法名詞,以擴充核心物象庫。識別失誤案例中可能包括單字和復音詞。對于單字,自動標注時很可能會引入名詞以外的詞性,因而不考慮利用模型發現單字中的未登錄詞。

對于復音詞識別失誤案例,需要考慮獨立、交叉、從屬3 類情況。若新詞與舊詞相獨立,認為該新詞古今含義相通,收錄進入下一次標注的語料中。若新詞與舊詞的標簽存在沖突,則偏向古漢語語義,保留舊詞,認為新詞發現失敗。若新詞與舊詞之間出現包含的情況,則二者同時保留。在自動標注時,詞的長度越大,優先級越高,保證長詞匯不會在標注過程中被切碎。

2.5 物象分布研究方法

實驗結束后,預計可獲取物象、物象類別、物象來源詩篇以及詩篇作者這4 個字段相關聯的物象庫,物象庫中包含了物象與詩人、物象與物象、物象與作者群體之間的共現關系。本文將基于上述3 種共現關系,從不同角度研究《全唐詩》中物象分布情況。研究方法如下:

(1)基于詩人共現關系的物象分布規律根據構建完成的《全唐詩》物象庫,我們可以獲取到每個物象所關聯的詩篇、詩人信息。將詩人、物象分別作為節點,詩人與物象的共現關系作為邊,可以構建詩人—物象雙模網絡。本文將對網絡整體進行定量分析,尋找詩人中的核心人物以及眾多詩篇中的核心物象。中介中心性是評價網絡中節點重要程度的指標之一,其測量的是節點位于最短路徑的次數與位于所有路徑中次數的比值,代表了節點作為媒介溝通其他節點的能力,具體計算方法如公式(1)所示。

其中,x 為待計算的節點,i、j 為圖中不同于x 且互異的任意兩節點,i、j 配對不重復,σ 為i、j 間的所有最短路徑的數量,σ(x) 為這些最短路徑中包含點x 的路徑的數量,σ(x)/σ 就是x 對于i、j 的中介概率(i、j不連通時為0),k 為圖中的節點數量。在詩人—物象網絡中,物象節點的中介中心性代表了詩人對該物象的共同關注程度,該指標越高,說明大部分詩人對該物象的關注度越高;而詩人的中介中心性則代表了詩人對不同物象的涉獵廣度,該指標越高,則代表詩人在作品中使用了越多不同的物象。

(2)基于地域共現關系的物象分布規律物象間的共現關系十分復雜、結構龐大,難以從圖論算法的角度對其進行定量分析。因此,從局部分析物象之間的共現關系能更高效地利用物象庫,進行物象間的關聯分析??梢詮臉嫿ǖ奈锵髱熘羞x取部分物象,根據物象間的共性將其定義為特定領域詞典,之后便能通過該小型詞典研究特定類別關聯物象的分布情況。本文將以“地名”為例,構建唐詩地名詞典,研究《全唐詩》物象的地域分布情況。

(3)基于作者群體劃分的物象分布規律《全唐詩》的編排順序中包含了詩人所屬的群體信息。查閱相關資料,將《全唐詩》中的詩人映射到對應群體,并對包含詩篇較少的一些群體進行合并后,人工劃分詩人群體如下:皇室、樂府、作者詩、無名—聯句—斷句、名媛、僧、道、仙—神—鬼—夢、諧謔—補遺、詞。本文將根據上述群體劃分,探索每個群體下的主題分布情況。

3 實驗結果及分析

本文以《全唐詩》(42 020 條)與核心名詞庫(14 577 條)作為初始學習語料,在冷啟動的狀態下啟動整個研究框架,利用自動匹配與標注、模型訓練、新詞發現、詞庫擴充、標注與再訓練的循環流程完成實驗的核心步驟。迭代數次,在詞庫擴充量明顯下降時完成模型訓練與詞庫構建,對模型與詞庫進行應用研究。

本次實驗環境為python3.6,tensorflow1.15;硬件為GeForce GTX 2080 Ti 一塊;使用工具包括:訊飛開放平臺詞性檢測工具、WWM 預訓練RoBERTa-LARGE 模型、kashgari1.1.5 框架。實驗后采用常見的精確率(precision,P)、召回率(recall,R)和F1 值(F1-score)3 個指標來評估實驗結果。模型部分超參數如表2 所示。

表2 模型超參數列表

3.1 物象抽取結果

經過30 輪訓練后,模型在訓練集上的精確率達到99.29%,在驗證集上的精確率達到99.05%。投入測試集,模型的各項指標如表3所示。

表3 首次訓練結果

由表3 可知,該模型在未經訓練的數據集上對于各類名詞的識別都有較高的精確率,但召回率普遍低于精確率,且在方向名詞的識別上表現較差。綜合觀察F1 得分,可知模型在普通名詞、時間與地名的識別上表現較好,都在84%左右。聯系F1 得分與樣例支持,發現表現較差的一類名詞的樣例支持遠少于其他3類,推測這一類識別表現差的緣由為相關數據過少,訓練不足。由模型在測試集上的表現可知,普通名詞的預測精確度較低,為88.76%。且此類名詞數量巨大,故模型在普通名詞分類下的新詞發現能力可能較強。

3.2 未登錄詞檢測與詞典擴充

整合學習語料,將其全部輸入首次訓練后的“唐詩物象抽取模型”,識別詩文中的物象。此次識別中,經新詞發現規則檢測、去重后,最終共識別出4 757 個未登錄詞。部分未登錄詞及其詞頻如表4 所示。

表4 部分未登錄詞展示

再次標注后,將已訓練完成的一輪模型遷移至本次學習,投入已擴充的學習語料進行再次訓練。訓練時發現,模型第17 輪訓練后在驗證集上的表現急劇下降,泛化能力大幅降低。訓練完成后,模型在訓練集上的精確率為99.08%,在驗證集上的精度為99.15%。投入測試集,各指標如表5 所示。

表5 迭代訓練實驗結果

由表5 可知,在投入擴充語料之后,模型的各項評價指標大幅提高。其中普通名詞擴充最多,精確率上升了3 個百分點,召回率上升了9 個百分點,F1 綜合指標上升了5 個百分點。除此之外,時間名詞與地名在少量擴充后F1 指標突破90%,提升也較大。方向沒有得到擴充,但遷移學習后召回率顯著提升,F1 綜合指標也分別提升了20%左右。

該輪學習過后再次輸入完整唐詩語料,所發現的未登錄詞僅有386 個單字詞,無復音詞。由于單字詞不能作為自動標注的語料,認為模型在第二次訓練后收斂,最終獲得物象識別模型以及唐詩詩文、作者、物象、物象類別相匹配的唐詩物象庫,合計338 662 條記錄,平均每首唐詩中成功提取物象7.9 個。

3.3 結果分析

基于上述實驗記錄可知:以RoBERTa 為基礎的預訓練模型在嵌入BiLSTM+CRF 網絡后,在已訓練過的語料上能達到很高的物象識別正確率,并且能基于預訓練語義發現一定數量的未登錄詞。由于預訓練語料與唐詩語料的語義環境相差較大,所發現的未登錄詞多數與現代漢語詞匯相通。自動標注前提下的古漢語物象識別模型的準確率、召回率及F1 分值都較高,突破90%。對于單字詞的標注由于一詞多義現象的存在,詞性判定極為困難,無法由自動標注流程來完成,單字詞的學習依賴語料也只能由人工標引完成,且需要標注者具備相當的古漢語知識,存在一定的局限性。

3.4 模型泛用性測試

該模型雖由唐詩語料訓練而成,但由于語言的演變流程是漸變式的,不同語境下的文字既存在差異,也存在共通之處。因此,該模型還可以通過補充預測其他語境古詩文本的形式,對詞庫與模型進行擴展,不斷擴充詩文所涵蓋的時間跨度。

本文以宋代詩詞為例,測試模型在宋代環境下對古詩詞中物象的抽取效果以及擴展模型時間跨度的可能性。測試過程中選取從Web 獲取的宋代詩詞共10 000 首作為測試語料。該語料未經標注,故無法計算測試過程中的精確率等指標。使用唐詩物象抽取模型對宋代詩詞測試語料進行識別,共識別出物象45 518 條,平均每首宋詩識別物象4.5 個。將結果對比唐詩核心物象庫,發現未登錄詞4 113 個。在上述宋詩中隨機抽取500 條詩句進行人工標注物象,共標注物象724 個。使用模型對該部分詩句進行物象識別,共識別出物象613 個,其中566 個詞為已標注物象。計算其準確率為92.3%,召回率為78%。鑒于該模型具備在不同語料中發現新詞的能力,在進行交叉時代的語料訓練后,模型召回率會得到一定的提升。統計部分詞頻較高的未登錄詞進行展示,見表6。

表6 宋詩部分未登錄詞表

將上述未登錄詞與唐詩文本進行匹配比對,發現小春、老天、寒宮等物象在唐詩中也有出現,但并未包含在初次實驗的核心物象庫中,模型也沒有識別出唐詩語境下的這些物象。而胸次、經量兩詞未在唐詩文本中出現過,卻在宋詩文本中被識別出來。查閱詞匯相關資料,胸次指胸懷,在宋代及之后的語境中較常出現。而經量較為特殊,該詞匯本指丈量土地,而在宋詞《一剪梅》中,卻用來表示南宋王朝丈量土地、壓榨人民的這一行為?!敖浟俊币辉~在這首詞中反復出現了8 次,用于諷刺之意。除此以外,經量一詞便較少出現于詩詞作品中了。

由測試結果可知,該模型對于未訓練過的語料有發現未登錄詞的能力,對于未標注語料的識別有著一定的準確率和良好的擴展性?;诖?,可在后續研究中持續引入不同時代的古文語料,基于模型本身的詞庫以及字向量的語義進行物象識別,從中獲取未登錄詞并且擴充詞庫,形成良好的基于擴充未標注語料的自監督循環流程,使得不同環境的語料可以相互補充,最終完成各時代的古詩詞物象抽取與物象庫構建。

4 《全唐詩》物象分布規律研究

經過上述實驗流程后,本次研究共獲取兩項成果:唐詩物象抽取模型與唐詩物象庫?;跀底秩宋牡难芯糠椒?,將所獲計算機成果進一步與人文領域相結合,融入對于唐詩的研究與分析中。最終主要形成基于詩人—物象網絡的唐詩物象分布分析、特定主題下唐詩物象分布分析兩個方面的應用。

4.1 基于詩人共現關系的物象分布規律

由于唐詩體裁用語的特殊性,且整個識別過程中可能會出現誤識別的現象,整個物象庫中物象的詞頻呈長尾分布,有18%的物象僅出現了1 次,49.2%的物象出現不超過5 次,而出現次數較多的如“鄉”“春風”“人間”等物象則在整個庫中出現了千次以上。若要對整個網絡進行全面分析,低頻稀疏的物象將大幅影響分析效率,且提供的信息較少。因此,為保證準確率及一定的計算效率,去除出現次數小于等于5 次的物象節點后,構建詩人—物象共現網絡并對網絡整體進行定量分析,尋找詩人中的核心人物以及眾多詩篇中的核心主題。

計算節點的中介中心性,結果如表7 所示。分析表7,可以得知:①從所使用的物象分布角度出發,白居易、杜甫、李白、元稹和劉禹錫五人在《全唐詩》中處于核心地位;②從物象節點的中介中心性來看,“鄉”“千里”“春風”“今日”和“人間”這幾個物象在全唐詩中被廣泛使用,代表了唐代詩人共同吟誦的對象。

表7 物象—詩人網絡節點中介中心性排序

繼續考察其中分布最為稠密的部分,篩選出共現次數大于15 次的(詩人,物象)二元組,共包含了節點325 個,二元關系517 組。對該網絡進行可視化分析,得到結果如圖3 所示。圖中紅色節點表示物象,藍色節點表示詩人,節點越大,說明該節點出現頻次越多。詩人與物象之間存在共現關系則產生連線,連線的顏色越接近藍色,說明連線的權重越高。物象節點之間相距越近,說明物象在唐詩中的聯系越緊密。詩人節點間的距離越近,說明詩人間所關注的主題越相似。

圖3 唐詩高頻物象—詩人網絡圖

分析圖3,得到結論如下:①《全唐詩》中收錄的白居易詩作數量遠高于其他人,從其中提取的物象數量也最多,因而白居易成了網絡中最大的核心。而收錄詩作數量相差不大的李白、杜甫等人在網絡中具有相似的地位。白居易、杜甫、元稹、劉禹錫、李白、杜牧、岑參等人各自形成了較大的網絡中心,與核心物象密切相連的同時,也連接了大量自身特有的物象,具有較強的個人風格。②該網絡展示了詩人之間的相似性。例如從詩歌鑒賞的角度來看,杜甫是“現實派”的代表詩人,李白是“浪漫派”的代表詩人,其二者詩作風格相差甚大,但從物象的角度來看,他們二人也共同關注一些位于網絡核心的物象,存在一定的相似性。綜上,學者可以借助物象庫中的關聯關系輔助分析更細粒度下詩人間遣詞風格的異同,也可以輔助分析同一物象在不同詩人處含義的差異性。

4.2 基于地域共現關系的物象分布規律

查閱唐朝行政區劃相關資料,人工構建唐朝地域詞典,包含了各地的名稱、別名、監察區劃、治所、州治所5 個字段。例如:雍州,別稱京兆府,治京城(長安),屬京畿道,治所京城(長安)。用該詞典在物象庫中進行匹配,得到物象庫中的地域集合。再利用該地域集合,根據詩作中的物象共現關系,構建地域—物象間的共現關系。構建成功后,初步統計分析,最受詩人關注的4 個地域為:長安、洛陽、荊州、揚州,選取這4 個地點作為分析對象。構建地域相關的詞云圖,結果如圖4 所示。該詞云圖以可視化的形式直觀展示了與各地點相關聯的物象分布,詞云中物象的尺寸越大,表示該物象與對應地點的共現頻次越高。

圖4 《全唐詩》地域—物象詞云圖

分別觀察分析上述詞云圖,可以發現:①與長安相關的詩篇中,大多吟誦天子,所使用的物象多數表達一些積極向上的情感以及對未來的期望,與唐代長安都城的繁榮景象相符。②與洛陽相關的詩篇中,提及故人次數較多,說明洛陽多離別,涵蓋些許惜別以及悲傷的情感在內;其余物象分布與長安較為相似,不過頻次略少。由此也反映出同作為都城,長安在唐詩中的影響力略大于洛陽。③與荊州共現的物象更為偏向現實生活,而與揚州相關的物象多與自然景色相關聯,具有較為鮮明的地方特色,一定程度上體現了唐朝不同地域的風情。④“千里”與上述4 個地名的關聯程度都較高,說明唐朝詩人無論身居何處,總是因距離之遠而感懷,思念遠方的故人、親人以及故鄉。

4.3 基于作者群體劃分的物象分布規律

根據《全唐詩》編排中的詩人群體劃分,在每個群體中選擇3 位中介中心性最高的詩人與3 個這些詩人使用頻次最高的物象,不足的部分以缺失的方式表示,對每個群體關注的物象進行可視化分析,得到基于群體劃分的唐詩物象分布圖,如圖5 所示。

圖5 基于群體劃分的《全唐詩》物象分布圖

分析圖5,可以發現:①除作者詩外,每個群體的物象分布都具有比較鮮明的群體特征,例如皇室所使用的物象大多具有宏偉的特點;樂府詩使用的物象多與朝政、百姓、禮樂相關;名媛所用的物象多與自然景觀和兒女情思相關等。②由于作者詩中所包含的詩人較多,且這些詩人風格迥異,可以再細分為不同的派別,故選取的物象較難體現整個群體的特征。

5 結語

本文從數字人文的視野下出發,針對古詩詞規?;治龅男枨笠约皩W習語料獲取成本過高的問題,提出從“物象”角度進行分析,采取了從Web 獲取學習語料與標簽集、利用自動標注生成學習語料的研究方法,并且構建的模型可以在迭代以后有效擴充原始語料庫,為本文的研究框架打下了基礎。在此基礎上,本文基于預訓練模型與深度學習、機器學習方法相結合的思想,使用預訓練模型中具有一定語義的字向量對單個漢字進行表示,使得未登錄詞的發現成為可能;同時采取深度學習中的長短期記憶網絡與機器學習中的條件隨機場算法相結合的方式,對輸入文本序列的標簽進行有效預測,以《全唐詩》資源為例,完成了古詩詞中的物象自動抽取任務。模型在已訓練的數據集上識別精確率高達99%,在測試集中對普通名詞、時間名詞以及地點名詞的識別精確率都在90%左右,F1 得分分別為89.6%、93.3%和93.6%,具有良好的表現。模型對方向名詞的識別由于標注缺乏的緣故識別效果欠佳,在后續研究中可以考慮通過人工引入特定種類稀有物象標簽的方式來增加標注密度,以提高稀有物象的識別率。之后將實驗成果應用于數字人文領域,從不同角度探索了《全唐詩》中物象的分布規律。

縱觀本次研究,仍存在可以深入研究之處,主要包括:①自動標注流程下生成的學習語料僅依賴于字符串匹配,標注密度較低,導致模型對于該語料的識別能力還有較大的提升空間;②已經驗證該模型在未知的古詩詞語料上同樣具有一定識別效果,且具備新詞發現的能力,可以通過引入不同時代的古詩詞語料逐步擴充詞庫,又利用新詞庫擴充舊語料的標注密度,形成語料間相互提升的良好趨勢;③僅以物象作為研究重點較為單調,后續可以考慮人工對物象進行分類,引入各類物象相對應的情感標簽,使得模型能夠在更為全面的視野下對古詩詞進行鑒賞分析。之后的研究中,筆者將致力于標簽和語料的自動擴充與情感標簽的引入兩方面,使得模型準確率進一步提升的同時將模型的識別能力擴充到情感層次。

(本文數據鏈接地址: http://hdl.handle.net/20.500.12304/10943)

猜你喜歡
物象唐詩語料
物象再造系列
物象幾何——新藝美固整木展廳
唐詩寫柳之妙
記敘文構思之“物象法”
春夜講唐詩記
唐詩里的日與月之爭
武術文化中“物象與興象”的博弈
唐詩賞讀
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合