?

基于MacBERT的徽派古建筑修繕文本實體識別方法研究

2023-12-25 03:25夏青石明鈞
電腦知識與技術 2023年31期
關鍵詞:知識圖譜

夏青 石明鈞

摘要:伴隨著中國幾十年的城市化進程,越來越多的傳統建筑消失在歷史的長河中。具有鮮明中國特色的徽派古建筑也難以幸免。當前的徽派古建筑修繕知識常以紙質書籍、電子書、數據庫等形式存儲,并且專業名詞多,傳統搜索引擎很難滿足用戶精準檢索知識的需求。文章提出基于MacBERT的命名實體識別方法,對徽派建筑修繕內容進行知識抽取,解決修繕實體界限不明顯、種類復雜的問題;基于Neo4j圖數據庫構建徽派建筑修繕知識圖譜,將知識體系化管理,提出用戶自然語言問句查詢知識圖譜方法,實現知識效用最大化。

關鍵詞:知識圖譜;徽派古建筑;MacBERT;Neo4j;實體識別

中圖分類號:TP399? ? 文獻標識碼:A

文章編號:1009-3044(2023)31-0044-04

開放科學(資源服務)標識碼(OSID) :<G:\飛翔打包文件一\電腦2023年第三十一期打包文件\9.01xs202331\Image\image248.jpeg>

0 引言

徽派古建筑的修繕不同于現代建筑,它要求施工人員掌握復雜的修繕知識,同時充分了解相關的歷史文化和當地人文風俗。而這些對施工人員來說是一個巨大的挑戰?;ヂ摼W的出現給施工人員查找相關信息提供了一個巨大的平臺,通過互聯網可以獲得大量的相關信息。而這些相關信息卻要人工篩查甄別,這無形中增加了繁重的工作量,這對緊迫的工期而言是相當不利的。通過創建徽派建筑修繕知識圖譜幫助施工人員獲得準確有用的信息,把施工人員從繁重的信息篩查任務中解放出來,保存足夠的精力去及時地完成園林修繕任務。目前徽派建筑修繕研究涉及建筑材料、建筑構造和建筑修繕技術等方面。王婧等[1]研究徽派建筑根據灰磚的材料性能及其受潮老化的特點,并提出新的抗老化材料;周亮等[2]利用三維激光掃描技術和BIM技術對宣城徽派建筑進行數字化建模,并開發了修繕決策支持系統。

1 相關理論與技術

1.1 知識圖譜

知識圖譜是用于揭示知識之間關系圖形化數據庫。構建知識圖譜分為6個部分:第一部分是知識抽取,從不同類型數據中抽取實體、關系和屬性信息。第二部分是知識融合,將多源異構的知識進行整合[3]。第三部分是知識表示,將知識客體中的知識通過含有語義關系的符號或圖形進行表示。第四部分是知識推理,根據現有知識推斷出潛在內容。第五部分是知識存儲,將處理完成的數據存儲在圖數據庫。第六部分是知識計算與應用。

知識圖譜依據知識的覆蓋面不同,可以劃分為兩種類型圖譜,一種為覆蓋知識面廣泛的通用型知識圖譜,如WordNet,數據來源廣泛,知識深度低;另一種為覆蓋領域知識的行業知識圖譜,如化工領域、建筑領域和消防領域等,面對不同行業,實體類型需要單獨定義主要用于自定義的領域數據集,因為其應用的功能主要是智能問答、輔助決策。

1.2 預訓練語言模型

在圖像識別領域,將圖片轉換為矩陣形式存儲,然后在深度學習中的神經網絡模型中進行卷積、池化、全連接等操作,最后進行圖像分類。計算機對于文本的轉化,是采用詞向量的方式,將一個文字轉化為N×1的二維向量,對于一句話而言,包含若干個字詞,則將每個詞的向量,依次排列組成一個三維矩陣。

MacBERT(MLM as correction BERT) ,由哈爾濱工業大學SCIR實驗室于2020年11月提出,從名字可以看出MacBERT 修改了BERT模型的MLM任務。MacBERT 模型通過用近義詞來掩蓋單詞,MacBERT 模型調整了 BERT 模型的掩碼語言模型預測任務,一是對所有單詞都添加[mask]標識符以及 Ngram masked 策略來選擇屏蔽的單詞[4]。二是對15%的單詞進行屏蔽,15%的單詞中的80%替換為近義詞(使用Synonyms toolkit工具獲?。?,其余的20%中有一半替換為隨機的單詞,剩下的一半則為原來的單詞,可見這種方式在預訓練時沒有[MASK]標識符的身影,然后模型根據上下文進行單詞預測。這種修改的MLM方法可以縮小訓練階段與微調階段之間的差距,提升模型的性能。

2 基于MacBERT的徽派古建筑修繕文本實體識別

本文的命名實體識別任務就是將與徽派建筑修繕相關的文獻中存在的實體進行識別。例如文中有這樣一句話:“門扇裂縫宜使用木條嵌補”。此時我們希望能夠識別的實體應包括以下部分:徽派建筑修繕品類實體“門扇”,修繕狀態實體“裂縫”,修繕材料實體“木條”,修繕方法實體“嵌補”。

為了獲得更高的實體識別率,本文設計并使用MacBERT-BiLSTM-IDCNN-CA-CRF命名實體識別模型(簡稱MBICC),其有以下幾點優勢:

1) 為了完成字向量特征提取,本文首先使用預訓練語言模型MacBERT,通過絕對位置編碼與句子順序預測來訓練文本數據,從而捕獲到不同維度上包含上下文信息的字向量。然后通過BiLSTM模型提取字向量特征。上述操作流程強化了字向量對園林修繕實體的表達,實現了字粒度特征向量提取。

2) 由于中文的部首同樣也蘊含著大量字義信息,為了融合建筑修繕文本的部首特征。本文通過IDCNN模型,來完成建筑修繕文本的部首級別的特征向量提取。

3) 通過引入協同注意力機制CA (Co-Attention Network)來融合字粒度特征向量與部首粒度特征向量,生成<文字-部首>對的雙相關特征,最后CRF在特征整合層的輸出向量中選擇最優的實體標簽序列,于是就得到了最優的預測結果[5]。

2.1 字粒度特征提取層

傳統的深度學習模型通常使用Word2Vec、Glo Ve等靜態語言模型對詞進行編碼,而對于同一個詞,靜態語言模型無法依據不同的上下文語境表達出不同的含義。但在實際生活中,一詞多義現象十分普遍。因此,本研究采用動態預訓練語言模型MacBERT對閱讀理解問題進行預測。

2.2 部首粒度特征提取層

中文的部首結構擁有豐富的含義,為了從文字中提取部首信息并將其編碼為向量表征,本文選擇IDCNN作為部首特征提取的訓練模型。選擇它的理由是:卷積神經網絡CNN已經被廣泛用于文本信息的提取,并且取得了不錯的成果。但是其仍然有不足之處,卷積神經網絡的末層神經元在卷積操作中不能夠保證百分百地獲得全部的原始信息,此時只能通過在卷積神經網絡添加卷積層、超參數等操作來獲取更多的信息,這樣做的代價就是模型計算量過大并且難以訓練。

漢字是一種象形文字,文字的偏旁部首都有其獨特的象征意義。不同領域的文獻文本往往具有自身鮮明的部首特征。例如,與園林建筑修繕相關的文獻文本部首信息往往與土木、屋頂、房梁相關。而與醫學相關的文獻文本往往與疾病、藥材、癥狀等相關。因此可以充分地利用行業領域文字特有的部首特性,把與園林建筑修繕相關的文字部首特性與融合語義的字向量相結合,從多個方向去提升園林修繕文本的中文命名實體識別能力。

一般來說,一本描述建筑修繕相關的文本文獻,肯定會大量出現土建類的專有名詞,這些專有名詞往往會涉及建筑類型、建筑材料、建筑功能、建筑風格等。而這些專有名詞又是中文命名實體識別的重點對象。通過對建筑專有名詞的歸納總結不難看出它們在漢字的部首結構上是存在共性的。舉例來說,在建筑文獻中一般會出現“房梁”“屋頂”“樓層”“樓道”“承重墻”“窗戶”“房門”“樓梯”等詞匯,通過分析這些詞匯可知出現了多個與土建類相關的部首分別是“戶”“木”“土”“穴”“門”。如果此時在《新華字典》里查詢這些部首不難發現建筑文獻的絕大多數名詞都是由這些部首組成。因此,選擇將中文部首作為建筑文獻文本的特征向量是有助于提高中文命名實體識別的準確率。

2.3 特征整合層

Co-Attention 是一種使用協同注意力機制的多模態模型,對輸入的字粒度向量和部首粒度向量進行并列操作,并聯合學習得到各自的注意力權重。本文同時捕獲建筑向量中的文字和部首信息并進行融合,生成<文字-部首>對的雙相關特征,使用門控多模態融合模塊自適應進行特征融合,為了減少在多模態中引入噪聲的可能性,利用過濾門自適應地過濾掉無用的多模態信息,最后根據不同模式的特征組合得到一個基于字特征和基于部首特征的新特征。

2.4 基于MacBERT的命名實體識別實驗及分析

2.4.1 實驗數據

由于徽派建筑修繕缺少公開的中文數據集,因此,本文針對研究任務自建徽派建筑修繕數據集。該數據集選用數據主要來源于百度百科、與園林建筑修繕相關圖書和安徽建筑大學徽派建筑數字圖書館的數據。為了保證數據的完整性,本次對數據進行分詞、去重及數據清洗等一系列預處理操作,最后經過人工標注得到實驗數據集[6]。該實驗數據集總共包含了11 986條徽派建筑修繕領域的句子?;张山ㄖ蘅橆I域共9種實體類型,分別是修繕材料(materials) 、修繕工具(tool) 、修繕規則(regulation) 、修繕方法(method) 、損毀原因(disaster) 、建筑狀態(condition) 、建筑名稱(name) 、建筑類型(type) 、修繕部位(position) 。

本數據集按照7∶2∶1比例劃分為訓練集、測試集和驗證集[7],訓練集8 390條,測試集2 397條,驗證集1 199條。數據集中包含實體24 503個,訓練集中有材料3 261個,工具1 205個,災害896個,規則207個,方法631個,狀態497個,名稱5 166個,類型408個,部位4 853個。

2.4.2 對比實驗結果與分析

為了證明本章提出的中文命名實體識別方法的有效性,基于控制變量思想,選用ALBERT-BiLSTM-CRF、BERT-BiLSTM-CRF和MacBERT-BiLSTM-CRF三種模型與本章的模型進行對比試驗,實驗的具體結果如表1所示。

1) ALBERT-BiLSTM-CRF模型,朱鵬等[8]提出將通過ALBERT層學習字級別特征表達與BiLSTM層提取文本上下文語義特征,由CRF層獲得全局最優標記序列,更有效地識別并提取中文地名。

2) BERT-BiLSTM-CRF模型,謝騰[9]提出了一種基于BERT-BiLSTM-CRF模型的研究方法:首先通過BERT模型預處理生成基于上下文信息的詞向量,其次將訓練出來的詞向量輸入BiLSTM-CRF模型做進一步訓練處理。該模型考慮了詞上下文的語義信息,對一詞多義進行表征。

3) MacBERT-BiLSTM-CRF模型,焦凱南等[10]提出使用能減少預訓練和微調階段差異的MacBERT來獲得動態字向量表達,并送入BiLSTM和條件隨機場CRF進行上下文特征編碼和解碼最終得到最佳實體標簽。

由表1可得出,模型較其他三種模型,準確率、精確率、F1值都有所提高,其中F1值提高了更為顯著,這因為本模型將MacBERT模型作為預訓練語言模型,并且引入協同注意力機制,其在判別器預測階段,面向句子序列中token,較其他預訓練模型,能夠更有效地進行訓練。

3 徽派建筑知識圖譜構建

在構建層,需要將模型訓練層得到的實體與關系三元組存入Neo4j圖數據庫中,Neo4j提供本地存儲與遠程連接兩種方式,本文選擇本地數據庫。Neo4j使用Cypher語句進行操作數據,可以通過LOAD CSV方式批量導入數據,將標題信息、實體、關系三元組依次寫入。將CSV格式的實體數據文件放入數據庫中的import文件夾下,使用Cypher語句進行批量存儲。根據實體類型共創建9種實體類節點,分別是修繕材料(materials) 、修繕工具(tool) 、修繕規則(regulation) 、修繕方法(method) 、損毀原因(disaster) 、建筑狀態(condition) 、建筑名稱(name) 、建筑類型(type) ,修繕部位(position) 。將CSV格式的關系數據文件放入數據庫中的import文件夾下,使用Cypher語句進行批量存儲,三元組數據中的實體已經創建完成,執行添加關系語句即可。建筑實體間的關系類型包括位于、使用、修繕依據、組成、發生、比較等。構建完成的知識圖譜在圖數據庫中如圖1所示。

以“邊金童柱身槽朽的修繕”為例,通過展示知識圖譜內容,獲得修繕策略。具體而言,對于邊金童柱身槽朽的情況,可以采用以下修繕措施:首先,修繕應該按照相關建筑修繕規定進行操作;對于槽朽部分不超過五分之一,應該實驗剔補的修繕方法,后期維護上要重點注意潮濕對柱身的負面影響。例子如圖2所示。

4 結論

本文著手建立徽派建筑修繕知識圖譜,先從徽派建筑修繕文獻入手,整合徽派建筑的建筑特色、建筑風格、建筑類型、建筑用材等專業知識,進行知識提取,進而構建徽派建筑領域知識圖譜應用于建筑文獻信息化管理,為徽派建筑行業領域創造價值。

參考文獻:

[1] 王婧,董新民,曹福亮,等.徽派建筑灰磚潮濕老化特性及預防措施研究[J].建筑材料學報,2013,16(1):73-79.

[2] 周亮,呂志華,黃永生,等.基于激光掃描與BIM技術的徽派建筑數字化修繕研究:以宣城市文保單位王氏宗祠為例[J].城市建筑, 2016(10):54-59.

[3] 謝炎宏,王亮,董春,等.面向地震災害防治的知識圖譜構建方法研究[J].測繪科學,2021,46(10):219-226.

[4] 王雪梅,陶宏才.基于深度學習的中文命名實體識別研究[J].成都信息工程大學學報,2020,35(3):264-270.

[5] 劉樂.深度學習模型在地理命名實體識別中的應用研究[D].天津:天津師范大學,2021.

[6] 陳曉宇.基于CCRF-AL方法的中文電子病歷命名實體識別研究[D].北京:北京化工大學,2019.

[7] 張婕.基于語言模型的多視角分子屬性預測[D].哈爾濱:哈爾濱工業大學,2021.

[8] 朱鵬,石麗紅,焦明連,等.混合神經網絡的中文地名識別方法[J].測繪科學,2021,46(11):159-165.

[9] 謝騰.面向電磁情報的信息裝備知識圖譜構建方法研究[D].長沙:國防科技大學,2020.

[10] 焦凱楠,李欣,葉瀚,等.基于MacBERT-BiLSTM-CRF的反恐領域細粒度實體識別[J].科學技術與工程,2021,21(29):12638-12648.

【通聯編輯:梁書】

猜你喜歡
知識圖譜
國內酒店品牌管理研究進展的可視化分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合