?

基于歷史文化知識圖譜的問答模型研究

2024-01-22 01:11陳賽飛揚李澤宇王小雪
關鍵詞:圖譜語義領域

陳賽飛揚,殷 鋒,李澤宇,王小雪

(西南民族大學計算機科學與工程學院,四川 成都 610041)

隨著人工智能技術的不斷進步和應用,知識獲取方式正在發生革命性的變化.傳統的搜索引擎已經不再是唯一的知識來源,新的知識檢索方式逐漸嶄露頭角,其中通過問答方式獲取相關知識成為一種備受關注的趨勢.歷史文獻資源中蘊含著巨大的價值,通過將知識問答技術引入歷史文化知識問答領域,在一定程度上彌補了該領域的空白,幫助我們深入挖掘潛在的歷史意義和學術價值.

在歷史文化領域,基于知識圖譜的問答系統近年來開始涌現.陳定甲等[1]基于Vue框架構建了輕量化的歷史文化知識圖譜問答系統,幫助人們更高效地檢索信息,但使用的知識匹配推理技術,在處理復雜問題時,難以有效識別問題的語法構造.Li等[2]針對以上問題,研究出了一種以BERT-BiLSTM-CRF網絡為基礎的命名實體識別方法,用于挖掘歷史文化文本的上下文語義信息.鄧祥旭等[3]在此基礎上引入了自注意力機制,相較于BERT-BiLSTM-CRF模型,獲得了更好的分類結果.

雖然在歷史文化領域的知識圖譜問答系統研究取得了一些進展,但總體而言仍面臨挑戰.如文獻[4]指出,現有方法主要依賴于數據,仍需要大量手動標注來明確問題與答案之間的關系.這在特定領域如歷史文化領域中導致了標注數據匱乏的問題,甚至完全沒有標注數據,從而使問答模型的訓練變得困難.

1 經典ERNIE的優勢和局限分析

截至目前,主流的問答系統主要有三種構建方法,基于知識庫的問答系統(Knowledge Base Question Answering,KBQA)[5]、開放域問答系統(Open-Domain Question Answering,ODQA)[6]、社區問答系統(community based question answering,CQA)[7].基于知識庫的問答系統(KBQA)就其構建方法而言又可分為兩類.一是基于信息檢索[8]的方法,通過實體鏈接獲得主題實體,學習如何將問題和潛在答案進行向量化表示,最后篩選答案.二是基于語義解析[9]的方法,該方法將問題轉化為一種語義表示形式,隨后用于檢索相關答案.

近年來,隨著深度學習技術的快速發展,利用深度學習技術對傳統KBQA方法進行優化成為研究熱點.其中谷歌在2018年提出基于transformer的預訓練語言表示模型BERT[10],該模型因使用動態詞向量在預訓練過程中對文本的上下文表示作了充分計算,從而在問答理解任務時取得了較好成績;因此被廣泛應用于各領域問答系統中.如曾攀等[11]構建了蜜蜂領域知識圖譜,并通過BERT進行問句意圖分析.王志明等[12]提出了基于BERT的意圖識別模型和基于BERT-BiLSTM-CRF的槽位填充模型來改進傳統醫療問答系統,使其對用戶的問句文本理解更加深入.近年來,構建在BERT模型基礎上的一系列優化模型不斷涌現,如Facebook的RoBERTa模型、百度的ERNIE(Enhanced Representation from Knowledge Integration)模型等.文獻[13]對比了目前出現的各種BERT優化模型,發現百度的ERNIE相較于其他模型在中文問答任務中效果最佳.

ERNIE[14]模型是基于BERT構建的,相對于BERT,ERNIE改進了預訓練語言模型的掩碼策略,以便更全面地提取語義知識.與BERT不同,ERNIE將訓練數據中的短語和實體作為一個整體單元來進行統一的掩蔽.這種方法的好處在于在學習過程中不會忽略整體的語料信息.此外,基于大量中文文本訓練并結合圖譜信息的ERNIE模型,能夠在中文中有效地捕捉多樣的語義模式.

但與文獻[4]提到的問題相似,ERNIE在獲取和理解歷史文化領域文本信息的語義特征,以及捕捉該領域語言表征的能力仍存在一定的局限性.

2 經典ERNIE模型的改進

2.1 改進思路

Liu等[15]提出了一種知識支持的語言表示模型(K-BERT),將知識圖譜與詞向量相結合,提高了特定領域識別任務的性能.這為構建歷史文化領域的知識圖譜問答系統提供了有益的思路,有助于克服標注成本高昂和高質量數據匱乏等問題.

總體而言,借鑒先前研究成果和改進方法,針對上述問題,本次研究使用帶有知識圖譜的K-ERNIE代替ERNIE(Enhanced Representation through Knowledge Integration),增加句子的上下文信息有助于融合句子內容,提升特征提取能力;再融入長短期記憶網絡(Long Short Term Memory,LSTM),以更深入地挖掘語義信息.這個整合增強了模型的語義理解能力,使其能夠更好地處理豐富的語境信息.

2.2 K-ERNIE-LSTM模型的提出

K-ERNIE-LSTM的模型包含五個關鍵組成部分:知識模塊、嵌入層、視圖處理、掩碼變換器和LSTM層.模型架構如圖1所示,對于輸入的句子,知識模塊首要步驟是從知識圖譜中提取相關的三元組,將原始句子轉換為充滿知識的句子樹.接著,這個句子樹會同時送入嵌入層和視圖層,進一步轉化為標記級嵌入表示和可見矩陣.此模型能夠根據任務需求選擇不同知識圖譜,在進行嵌入層操作之前引入領域專業知識,解決了多元化詞向量編碼空間不一致和語句偏離核心語義的問題.

圖1 K-ERNIE-LSTM的模型結構

1)知識層(Knowledge layer)

知識層是該模型的核心,用于整合外部知識源,其主要任務是從這些知識源中提取與文本相關的領域知識,并將其融合到模型中,以增強文本的語義表示.通過知識注入使模型能夠更好地理解和處理特定領域的文本,因為它包含了領域專業術語、關系和實體等信息.

圖2 句子樹結構

2)嵌入層(Embedding layer)

嵌入層在K-ERNIE中的作用是將句子樹轉換為嵌入表示,以供Mask-Transformer處理.與ERNIE相似,K-ERNIE的嵌入表示包含了三個重要組件:標簽嵌入、位置嵌入和區段嵌入,不同之處在于K-ERNIE的輸入是句子樹而非標記序列.

標簽嵌入與ERNIE相似,但在嵌入之前需要對句子樹的標記進行重新排列.位置嵌入用于恢復結構信息,確保重新排列后的句子能被正確理解.區段嵌入用于標識多個句子的邊界,以便在合并多個句子時保持語義分離.這些嵌入層共同構成K-ERNIE的基礎,為后續處理提供了豐富的文本表示.

3)視圖層(Seeing layer)

(1)

4)掩碼變換器(Mask-Transformer)

(2)

(3)

(4)

5)LSTM層(Long Short-Term Memory)

LSTM[16]保留了大部分循環神經網絡(RNN)的特性,并成功地解決了梯度反向傳播中的梯度消失問題.對于經常需要跨越長距離依賴的歷史文化類型的文本數據,通過LSTM層可以捕獲長期的上下文依賴關系,更好地處理長文本序列.

最后模型將文本標簽特征向量映射到實際問答標簽,基于上一層的輸出,再進行降維和softmax函數歸一化,計算標簽的近似概率y,如式(5)~式(6)所示.

(5)

(6)

3 K-ERNIE-LSTM模型效能及分析

3.1 數據收集與知識圖譜構建

3.1.1 歷史文化領域知識圖譜構建

數據集是命名實體識別的關鍵部分,它決定了在數據集上訓練的模型是否適用于實際問題.我們主要選擇兩個知識圖譜進行對比,首先是一個涵蓋了中文領域廣泛知識的通用化結構化百科知識圖譜CN-DBpedia[17],該知識圖譜以中文為主要語言.此外由于還沒有針對歷史文化這一特定領域的公共數據集,我們創建了一個自定義的命名實體識別數據集.數據獲取的來源主要有兩部分,首先關注了現實中的中國歷史文化相關的書籍以及網絡上的歷史文化相關網頁;然后通過百度百科爬取其中的歷史文化百科條目.對于紙質書籍等關系型數據,主要通過人工收集整理的方式來構建語料庫;對于網站中的半結構數據,通過爬取的方式來獲取其中的三元組;對于txt文本數據這種非結構化數據,選取合適的自然語言處理技術進行知識抽取.具體獲取的數據條數和數據格式如表1所示.

表1 數據獲取詳情

整理后的實體關系三元組存儲在Neo4j數據庫中,可通過查詢語句獲取相關數據.

3.1.2 問答語句數據采集

選取知乎歷史文化版塊中相關問答,通過Spacy爬取后作為原始數據,并對用戶的自然問句進行文本分類.如表2所示將問句分為8種類別,每一種類別使用不同的標簽標注,通過問題模板和屬性標注庫逆向生成K-ERNIE-LSTM模型的數據集,共18 681條數據.

表2 問句標注示例

3.2 評價指標

本文通過精確率(P)、召回率(R)、和F1值來檢驗和評測模型效果,具體計算公式如式(7)~式(9)所示.

(7)

(8)

(9)

其中:Tp為正樣本中被正確預測的數量,Fp為負樣本中被錯誤預測為正樣本的數量,Fn為正樣本中被錯誤預測為負樣本的數量.

3.3 實驗參數

為了保證整個實驗的順利進行,采用了以下實驗環境配置,如表3所示.

表3 實驗環境

除此之外為了更好地反映基于BERT優化后的模型效果,根據Google BERT的基本版本[18],將K-ERNIE-LSTM與對比模型配置為相同的參數設置.最大輸入文本128,學習率為0.000 02,dropout設置為0.5,掩碼變換器設置為12層.

3.4 實驗設計與結果分析

為了驗證模型的效能,本節主要考慮從以下兩方面設計對比實驗.

1)使用公開知識圖譜與自建歷史文化領域知識圖譜分別對ERNIE模型進行嵌入,對比通用知識圖譜嵌入與特定領域知識圖譜嵌入對模型效能的影響.

2)與其他預訓練模型(BERT)相比,本文所使用的ERNIE模型是否表現出更優的性能.

3.4.1 不同知識圖譜嵌入對比實驗

本節主要選擇常用的大規模通用知識圖譜CN-DBpedia與自建知識圖譜進行對比實驗,圖譜嵌入處理及模型實驗流程如圖3所示.

圖3 圖譜嵌入處理及模型搭建流程圖

三種嵌入方式的實驗結果如圖4所示,從左到右分別為不使用知識圖譜嵌入、使用CN-DBpedia知識圖譜嵌入,以及自建歷史文化領域知識圖譜嵌入后模型對用戶問句的識別效果.

圖4 不同嵌入方式的識別任務結果

圖4可以看出,不嵌入知識圖譜的模型準確率與F1值明顯低于知識圖譜嵌入后的K-ERNIE模型,說明了知識支持的K-ERNIE-LSTM模型在特定領域的識別任務中效果較好.而且使用特定垂直領域的知識圖譜,具有更好的提升效果.因此,根據任務類型選擇合適的知識圖譜非常重要.

3.4.2 K-ERNIE-LSTM模型對比實驗

上組實驗分析了不同的知識圖譜嵌入策略對模型效能的影響.本節實驗主要分析不同的預訓練模型,在都基于歷史文化領域知識圖譜的嵌入下,其性能差異.對比模型有:K-BERT、K-ERNIE、結合LSTM網絡的K-BERT-LSTM、K-ERNIE-LSTM四個模型.實驗結果如表4所示.

表4 不同模型的實驗結果

從表4可以看出,得益于ERNIE模型能夠更好理解中文語義表示,對于歷史文化領域的問句識別任務,K-ERNIE模型表現要優于K-BERT模型.在結合LSTM模型后,兩個模型性能均有所提高,且K-ERNIE-LSTM模型的表現仍優于K-BERT-LSTM模型.本文提出模型相較于K-BERT模型約有2個百分點的性能提升,證明了K-ERNIE-LSTM模型的有效性.

在上述研究中,我們進行了詳盡的消融和對比實驗,涉及了兩種不同的數據集和四種不同的模型,實驗結果可以得到以下結論:K-ERNIE-LSTM模型在準確率、召回率和F1得分三個性能指標上均有一定的提升.

4 結論

總的來說,針對歷史文化領域的問題回答,存在準確性不足和深層語義匹配的挑戰,提出了一種知識圖譜嵌入的K-ERNIE-LSTM方法,與傳統的算法相比,能有效識別用戶的語義信息,其精確率、召回率和F1值有一定的提高.其真正優勢在于特定領域中,使用相應的知識圖譜,不僅提高了對注入知識的利用效率,還降低了大規模預訓練的成本.本文所采用的方法在應用于小型的數據集時進行了測試,這導致了模型的一些限制.在未來的工作計劃中,將擴大數據規模,以提高模型的泛用性,并進一步研究模型在長文本分析任務中的表現.

猜你喜歡
圖譜語義領域
繪一張成長圖譜
語言與語義
領域·對峙
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
“上”與“下”語義的不對稱性及其認知闡釋
新常態下推動多層次多領域依法治理初探
認知范疇模糊與語義模糊
肯定與質疑:“慕課”在基礎教育領域的應用
3D 打?。合冗M制造領域的必爭之地
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合