?

基于知識重組的紅色歷史人物智能服務研究

2023-07-20 12:04張強高穎劉飛等
現代情報 2023年7期
關鍵詞:GIS技術知識圖譜

張強 高穎 劉飛等

關鍵詞:知識重組;紅色歷史人物;知識圖譜;智能服務;GIS技術

DOI:10.3969/j.issn.1008-0821.2023.07.010

[中圖分類號]G250;K928.6 [文獻標識碼]A [文章編號]1008-0821(2023)07-0096-13

中國共產黨的百年奮斗史就是一部紅色文化生成、發展、提煉的歷史。利用好紅色資源,對于學習黨史、賡續精神血脈、傳承紅色基因至關重要。2021年2月1日,中共中央決定在全黨開展黨史學習教育,習近平總書記指出:在黨史學習教育中,要充分運用紅色資源,用好紅色資源,傳承紅色基因,把紅色江山世世代代傳下去。在《關于實施中華優秀傳統文化傳承發展工程的意見》《關于實施革命文物保護利用工程(2018-2022年)的意見》等重要文件中,均對如何加強紅色文化資源的數字化建設作出了重要指示,旨在通過數字化技術賦能紅色文化資源的可持續性保護與創新性利用,真正讓紅色文化活起來,傳下去。紅色歷史人物資源作為紅色文化資源的重要組成部分,推動紅色歷史人物資源的數字化組織、存儲、應用,對了解紅色歷史人物、開展黨史學習教育、弘揚紅色文化精神具有重要的理論意義和實踐價值。

近年來,數字技術在人文領域得到了廣泛應用,深刻改變了紅色歷史人物資源的數字化組織、存儲、應用的方式和方法。知識圖譜作為當前最為常見的一種知識表示、存儲、推理、應用的技術手段,為數據從孤立轉向關聯提供了助力,在眾多研究領域都得到了廣泛應用。將其應用于紅色歷史人物資源上,一方面,為紅色歷史人物資源的知識關聯與可視化呈現提供了可能;另一方面,為紅色歷史人物資源的智能服務與知識發現提供了新的方式,進一步提高了紅色歷史人物資源的知識服務效果。同時,GIS技術在人文科學中的應用愈加廣泛,解決了傳統人文科學研究中重“時”輕“地”的研究現狀。紅色歷史人物的軌跡與我黨的偉大革命斗爭息息相關,將GIS技術應用于紅色歷史人物的資源上,可直觀展現人物的人生軌跡,對了解紅色人物的歷史提供了新的視角。

為探究上述問題,本研究利用知識圖譜技術,探究紅色歷史人物資源的數字化組織、存儲與應用的方式和方法,以實現紅色歷史人物的知識關聯。同時,引入GIS技術,以實現紅色歷史人物的軌跡展示。最后設計了紅色歷史人物智能服務的原型系統,為用戶查詢和信息交互提供便利。

1相關研究

聚焦本研究的研究問題和研究內容來看,相關的研究主要有領域知識圖譜構建研究、時空軌跡研究、基于知識圖譜的智能問答研究。

1.1數字人文領域知識圖譜構建研究

知識圖譜作為一種有效的知識組織和存儲方法,在各領域都得到了廣泛應用,當前的數字人文研究大多以項目制開展,因此,在知識圖譜構建過程中主要采用自頂向下的構建方式,即先構建領域Sche-ma或本體模型,再導入實例數據。如針對口述檔案資源,王阮等通過先構建口述記憶資源本體模式層,再以國家圖書館中東北抗日聯軍的老戰士口述記憶資源來構建口述記憶資源的知識圖譜,并進行了多維的知識發現研究。針對文物信息資源,高勁松等通過構建可移動文物的本體模型,并基于該本體構建了可移動文物的知識圖譜,最終實現了可移動文物的關聯數據發布。針對人物信息資源,楊海慈等基于中國歷代人物傳記資料庫,通過構建宋代的學術師承本體來開發宋代學術師承的知識圖譜,并集成了RelFinder可視化工具來檢索和展示知識圖譜中的實體關系。具體到本文的研究對象來看,紅色歷史人物是指參加過革命實踐,并為革命做出過貢獻的革命人物,且紅色人物常常會與其他紅色文化資源交叉融合。劉偉麗使用七步法構建中共一大人物的本體模型,利用人工處理的辦法獲取中共一大人物數據構建中共一大人物的知識圖譜。張云中等通過構建紅色歷史人物的Schema和問答服務框架,并以老上大歷史人物資源半自動化地搭建了紅色歷史人物的知識圖譜。本研究所需構建的知識圖譜涉及人物、事件、機構等多維度,上述研究為本研究中的知識圖譜構建提供了研究思路和基礎。

1.2時空軌跡研究

時空數據是包含時間、空間兩種屬性的數據,傳統的人文研究多是基于時間維度而忽略了空間維度的信息。近年來,以GIS技術為代表的地理信息方法廣泛介入到數字人文的研究中,為數字人文視角下的空間研究提供了極大助力。文學界一般稱之為文學地理學,而在歷史學中一般稱之為歷史地理信息,張瑋等提出了一種基于文本關聯與時空可視化結合來研究宋詞的新視角,讓人文學者可以從多維度的視角來探析宋詞文本的語義信息。位通等以《朱熹年譜長編》為例,將時間和空間信息重組為一維信息,并基于GIS技術開發前端可視化平臺,以便人文學者從時間、空間兩個維度分析年譜信息。黃鵬程等以《晚晴簃詩匯》為例,探究了清代詩人的地理分布差異與時空維度的關系特性。湯萌等首先利用民國時期的測繪地圖實現經緯度的信息匹配,后探究了民間文書內容在空間分布上的可視化路徑。在開源平臺的構建工作方面,主要有王兆鵬等開發的“唐宋文學編年地圖”,其提供了對文學歷史人物的時空一體化展示,可從整體上探究人物的時空軌跡,但并不支持用戶的自定義使用。浙江大學學術地圖平臺有眾多以用戶自定義數據來制作的人物軌跡圖,但仍然集中于全局展示上,無法展示具體的人物信息??梢?,目前GIS引入數字人文領域的工作更多的是數據可視化,仍需要改進達到數據故事化的效果。

1.3基于知識圖譜的智能問答研究

知識圖譜自提出之日起就被作為提供智能搜索服務的知識庫,基于知識圖譜的智能問答是當前智能問答的主要研究領域。而根據知識庫內容的不同,智能問答的方法可分為如下4類:①基于模板規則的問答方法,主要通過構造模板參數和模板庫來返回用戶的問題,如汽車領域的智能問答系統,該方法的缺點是需要大量的人工來構造問題模板和相應的答案,當問題與已有模板完全匹配時效果較好;②基于語義解析的問答方法,主要通過自然語言處理技術來解析問題文本,通過分詞、詞性標注、句法分析等提取文本中的實體或關系,通過查詢返回目標實體或關系,如館藏文物資源智能問答系統。該方法主要用在小規模數據集上,且問題的領域性強時效果較好;③基于深度學習的問答方法,該方法可利用循環神經網絡(RNN)來捕捉路徑信息,從而預測實體之間的隱藏關系,如中文醫療問答匹配系統。該方法需要標注大量的訓練數據,主要用在具有大規模數據集上;④多種方法的融合,如融合模板匹配和深度學習的孔子世家譜的知識問答系統。上述基于不同知識庫內容采用的問答方法,為本研究的智能問答服務提供了借鑒意義。

綜上所述,目前在紅色歷史人物資源的相關研究主要集中于知識組織與存儲,缺乏了知識服務功能,主要存在如下不足:一是紅色歷史人物資源來源廣,結構復雜,目前的領域知識圖譜構建的數據源多為結構化數據并采用人工方式導入,當數據集較多時無法勝任。二是在智能問答上,要么需要大量的人工構建模板,要么需要大量的真實問答數據集合,而針對紅色歷史人物這一特殊領域都較難適用。三是在智能服務方面,或是從知識圖譜的靜態關聯展示人手,或是從時空維度的動態軌跡展示人手,鮮有將二者結合的思路,無法達到“動靜結合”的效果。且大多仍停留在學術研究上,未能構建出智能服務的原型系統,無法直接供用戶使用?;诖?,本研究將結合上述研究的不足,力圖解決相關問題。

2研究框架

在對紅色歷史人物資源重組梳理的基礎上,參考了已有關于領域知識圖譜構建的流程,本研究構建了如圖1所示的紅色歷史人物知識重組與智能服務研究框架,主要包括本體考察、數據來源、知識抽取、知識融合、知識存儲、知識服務6個部分。

2.1本體考察與數據來源

此部分主要是結合本研究的研究對象和內容來對目前學界已有的成熟本體進行考察,以便更好地選擇復用本體模型。在此之前,還需要充分考慮領域專家意見,厘清相關的概念類和關系,避免產生歧義的類和關系,進而構建本研究的本體模型,以便有效地對紅色歷史人物進行知識表示。在本體考察層通過復用已有本體后,構建了紅色歷史人物的知識表示模型,還需要根據數據來源層的數據特點導入相應的案例數據并更新本體。本研究的數據來源主要包括各省市黨史方志網、網絡百科資源、紙質紅色檔案資源等。首先,將從網絡上爬取的紅色歷史人物資源和人工抽取的紙質紅色檔案資源存入MySQL關系型數據庫中,然后,將數據庫中保存的數據格式轉化為鍵值對形式的JSON數據,以便后續的知識抽取工作。同時,將爬取到的所有紅色歷史人物圖片資源以人物名稱命名保存在文件夾中,因圖片資源無需像文本資源再經過抽取和融合步驟,故直接應用于后續的知識存儲中。

2.2知識抽取

知識抽取是指從多源異構的數據中抽取出研究所需要的各類信息形成知識進行存儲。根據前文所構建的本體模型所需求的信息,主要抽取出紅色歷史人物的屬性信息、實體信息、關系信息。屬性信息主要包括對人物、時間、空間、事件、機構等概念類的描述,實體信息則是某一實例的具體信息,如具體的人物姓名、軍銜、出生時間、出生地點、參與戰役等信息。關系抽取主要是以三元組的形式返回抽取到的節點名稱和關系,本研究采用結合神經網絡和語法規則的方式抽取文本中的關系,針對多源異構的數據分別采用恰當的方法,可以最大化地提取出三元組知識,為知識圖譜數據層提供高質量的數據。

2.3知識融合

在獲取到新知識后,還需要對其進行整合處理,以消除歧義和矛盾。主要包括共指消解和語義消歧兩種,共指消解是指某些實體或關系可能會有多種表達方式,語義消歧是指某個特指的名稱可能對應多個不同的實體或關系。如人物的姓名、別名、化名等不盡相同,但是所指的實體是一致的,也有可能不同的人物所用的化名是一樣的。此外,在時間實體的表述上會存在共指現象,如“民國”二十八年和1939年實際為同一年。在關系的表述上同樣也存在共指現象,如參與事件和參加事件的本質含義是一樣的。本研究選擇結合人工和文本相似度的方式來進行知識融合,人工的方式主要處理領域性較強的實體歧義,文本相似度用來處理常規類型的相似實體和關系。在文本相似度計算方法中,本著簡潔易用的原則選擇了基于余弦距離的相似度度量方法。

2.4知識存儲

經過融合之后的知識實體需要先進行質量評估之后才能加入到知識庫中,融合之后的實體、屬性和關系用RDF框架來表示。RDF(Resource Descrip-tion Framework)在形式上表示為SPO(Subject Predi-cate Object)三元組,RDF由節點和邊組成,節點表示實體或屬性,邊表示實體間或實體和屬性之間的關系。RDF常用的序列化方式有:RDF/XML、N-Triples、Turtle、RDFa、JSON-LD等。本研究選擇JSON-LD(JSON for Linking Data)以鍵值對的形式來存儲RDF數據,再通過調用Python語言中用來連接Ne04J圖數據庫的Py2neo包,將JSON格式的三元組知識存入到圖數據庫Neo4J中,主要原因在于,基于JSON-LD格式的三元組知識在本研究構建的Web環境中兼容性和互操作性更好。同時CIS系統所識別的數據格式為CSV文件,還需要對JSON格式的文件利用Python語言中用于數據處理的Pandas包,將其轉化為CSV格式的文件,再將其導入到GIS中,在底圖基礎上疊加數據層來生成人物的軌跡路線圖。由此,就完成了靜態的知識關聯和動態的軌跡展示。

2.5知識服務

知識存儲后的根本目標是為了更好地組織、管理和使用知識,因此,在完成知識存儲的基礎上還需要考慮如何服務用戶?;诖?,本研究構建了紅色歷史人物的智能服務系統,其包含兩種智能服務的形式,一類是關于紅色歷史人物知識的檢索和人物生平軌跡的檢索;另一類是關于紅色歷史人物知識的智能問答。在知識檢索系統上,主要通過名稱匹配來返回相關的圖譜知識和人物軌跡;而在智能問答系統上主要采用自然語言處理技術將問題語句進行分詞和句法分析.通過識別問句中的實體和關系,再調用Py2neo庫在圖數據庫Neo4j中查詢目標實體并返回結果,同時,涉及人物實體的答案還會返回該人物的圖片資源。

3實證研究

3.1本體考察與構建

紅色歷史人物這一特殊身份特征,決定了在構建人物本體時需要重點關注與紅色和歷史相關聯的語義信息,如軍銜、戰役、軍隊等實體及其關系。為了更好地對紅色歷史人物知識進行全面簡潔有效地表達,并充分考慮到知識服務與知識庫構建的匹配程度,采用咨詢專家意見和問卷調查結合的方式,確定紅色歷史人物的關鍵概念和關系。專家意見可以保證本研究所構建本體模型的全面性和準確性,而面對普通用戶的問卷調查可以了解到關于紅色歷史人物知識的聚焦點,有利于后續知識服務的開展。根據以上需求,在本體構建時主要考察了相關領域較為知名的社會網絡人物本體FOAF[23]、上圖名人手稿檔案庫、國際文獻工作委員會的概念參考模型CIDOCCRM。

根據對上述本體的考察和分析,在充分考慮復用已有本體的基礎上,本研究復用了人物類(foaf:Person)、地點類(E53: Place)、事件類(crm:E-vent),同時采用了自定義thf( red historical figures)來作為本體命名空間,命名了時間類(thf:Time)、機構類(foaf:Organization)和資源類(thf: Resource),共計6個類別來滿足紅色歷史人物類別描述的需要。其中,時間類的描述還包括具體的某一點的時間點和只能宏觀確定的某一時間段,因此,時間類(thf:Time)下設立了抽象時間類(TimeAbstract)和具體時間類(TimeSpecific)。最終構建的本體模型共有6大類,其中,人物類與時間類下又分為兩個子類。

1)人物類

人物類(foaf:Person)是本研究的主體研究對象即紅色歷史人物本身,紅色歷史人物除了參與革命斗爭的軍人外,還有如“七一勛章”獲得者馬毛姐這樣為紅色革命作出突出貢獻的人民群眾。因此,人物類又分為軍人類(thf: Soldier)與非軍人類(thf:No-Soldier)兩個子類,根據人物在本研究分析的地位將其作為本體構建的核心類,與其他五大類均存在對象屬性關系,人物類與人物類也存在著諸如父母、子女、兄弟、同學、戰友等對象關系。人物類主要的數據屬性是描述了代表紅色歷史人物的核心信息,如:姓名、別名、化名等,其中,軍人類相對于非軍人類有特殊的數據屬性,如軍銜等。關于描述人物的時間、地點、事件、機構等信息,通過類與類間的對象關系與其余類下數據屬性進行關聯,以使得邏輯更為清晰。

2)時間類

時間類(thf:Time)指的是人物、機構、事件及資源具有的時間信息,子類包括抽象時間類(thf:TimeAbstract)和具體時間類(thf: TimeSpecific)。抽象時間類下的數據屬性主要是無法具體到某年的時代信息,如20世紀30年代等,具體時間類下的數據屬性一般為具體到年、月、日的精確時間信息,如1921年7月1日等。

3)地點類

地點類(E53:Place)與時間類相似,指的是人物、機構、事件等具有的空間信息均歸于地點類下。與其余類之間通過對象屬性關聯,如人物的出生地點、事件的發生地點、機構的成立地點等,而類本身具有的數據屬性主要是舊時地點名稱、現代地點名稱、經緯度信息等。

4)機構類

機構類(thf:lnstitution)是指紅色歷史人物在革命戰斗期間所創建、組織或參加過的重要組織和軍隊。一般與人物類、時間類、地點類和事件類間形成對象屬性關系,機構類之間也存在機構改編和下轄機構的對象關系。機構類的數據屬性為組織名稱和軍隊名稱。

5)事件類

事件類(crm:Event)是指紅色歷史人物在革命戰斗期間經歷的重大事件,是構成人物相關知識的核心要素,與人物類、時間類、地點類之間均存在對象屬性關系,如事件的發生時間、發生地點、結束時間等。事件類的數據屬性為事件內容。

6)資源類

資源類(thf:Resource)是紅色歷史人物相關知識的資源類型,多源異構的數據源就決定了紅色歷史人物具有多種多樣的形式化信息,用來表達人物類的資源信息。數據屬性主要包括影像資源、圖片資源、文本資源等。

概念類定義之后需要明確類與類之間的對象屬性,以梳理出人物與人物、人物與時間、人物與地點、人物與事件、人物與機構、事件與時間、事件與地點、機構與時間的關系等。部分概念類的對象屬性信息如表1所示。

類與類之間的對象屬性從本體層定義了概念之間的關系,豐富了概念類在關系和特征方面的具體描述,而部分核心類除了具有類間的對象屬性以外,還具有表達自身特征的數據屬性,部分數據屬性如表2所示。

最終,本研究構建的紅色歷史人物知識本體模型共有6個核心類、4個子類、24個對象屬性和19個數據屬性,設計出的紅色歷史人物的本體模型如圖2所示。實線表示類與類之間的對象屬性關系,虛線表示核心類與本身具有的數據屬性關系。

3.2數據來源

本研究選取了1955—1965年被授予將軍軍銜的皖籍紅色歷史人物進行實證研究。主要原因在于,安徽省作為著名的中國紅色革命策源地和人民軍隊的發源地,涌現了大量為中華人民共和國做出重大貢獻的人物。而開國將軍作為其中的典型代表,歷史貢獻卓越,且人物之間的關系較為豐富,背后的知識價值較高。因此,從歷史地位和數據來源綜合考慮,最終以團隊搜集到的128名皖籍開國將軍為研究對象以滿足本研究的需求。利用自編Python爬蟲程序分別爬取了安徽省及下屬16個省轄市的黨史方志網有關上述人物的內容,并以爬取的百度百科人物介紹資源和人工抽取紅色紙質檔案資源作為補充數據來源,同時,爬取了百度百科的人物圖像作為人物的圖片資源,以便后續原型系統中的人物呈現。爬取黨史方志網的部分Python代碼如圖3所示。

3.3知識抽取與融合

3.3.1知識抽取

本研究主要基于句法規則和神經網絡來進行知識抽取。知識圖譜存儲是以三元組的形式,因此,本研究主要是對屬性和關系進行抽取,抽取時會一并將實體抽取出來。句法規則的三元組抽取,調用了哈工大語言云平臺LTP(Language Technology Platform)進行句法規則抽取,形成XML文件后進行解析。神經網絡的三元組抽取,調用了Jiagu自然語言處理工具,該工具提供了知識圖譜的關系抽取功能,以BiLSTM模型為基礎,通過大規模的中文語料庫訓練而成,其中大部分為百科語料。因此,百科資源主要用神經網絡進行抽取,而黨史方志網的資源主要通過句法規則來抽取。兩種方法提取的結果示例分別如圖4、圖5所示。

3.3.2知識融合

經過知識抽取之后的部分實體和關系可能會存在歧義現象,如實體李克農和李峽公實為同一人,這樣的實體類型無法通過常規的算法進行融合,即算法判斷的相似性程度無法與實際情況匹配,因此,針對實體上存在的歧義,主要通過人工構建自定義的同義詞詞典來進行融合。而在關系名稱上則選擇了余弦相似度,并結合哈工大同義詞詞林(擴展版)來計算關系名稱的近似程度,余弦相似度的計算公式如式(1)所示。

參考已有研究,一般認為相似度similarity取值超過0.8時就認為a、b兩個關系名稱屬于同一關系,并予以統一替換。

3.4知識存儲

本研究使用Neo4J圖數據庫來進行知識的存儲,Neo4J作為一種圖形式的存儲模式,與傳統的基于關系型數據庫相比,具有更好的知識關聯、知識查詢與知識推理的能力。Neo4J數據庫中由標簽、節點、關系及節點屬性4類要素組成,其中將類與標簽、實例與節點、對象屬性與關系、數據屬性與節點屬性一一對應,由此就完成了紅色歷史人物的本體模式層到圖譜數據層的匹配映射。如人物類與時間類組成的對象屬性:{洪學智,出生時間,1913年2月2日},標簽分別為人物類與時間類,實例分別為“洪學智”與“1913年2月2日”,關系為“出生時間”。

本研究采用了Neo4J桌面版Neo4J(1.4.15),圖數據庫版本為4.4.5,JDK的依賴版本為jdk-11.0.14。經過知識融合步驟完成了三元組數據的整理后,利用Python語言的第三方包Py2neo調用Cypher語句來將三元組數據存儲到圖數據庫Neo4J中。最終,本研究構建了由1855個節點和3523條邊組成的知識圖譜,如圖6所示(為使圖片美觀,對部分節點進行了隱藏)。

在知識存儲環節,還需要將JSON格式的數據文件轉化為GIS可識別的CSV文件,CSV格式文件主要以逗號來分割實體信息,以表頭充當本體中的類。GIS中需要經緯度信息才能生成點和路徑,本研究在經緯度信息的確定上使用了百度地圖的經緯度提取器。GIS底圖則采用了中華人民共和國自然資源部提供的天地圖(審圖號:GS( 2022) 2124號),通過調用天地圖的API接口并在底圖層上疊加數據層來完成時空軌跡的存儲與展示。

3.5知識服務

在多維度重組了紅色歷史人物的知識的基礎上,本研究構建了紅色歷史人物智能服務的原型系統。本系統采用了B/S網絡結構模式,在開發模式上使用了前后端分離技術。前端采用了經典的HTML、CSS、JavaScript來完成對網頁端的頁面布局、格式渲染和功能交互。后端采用了圖數據庫Neo4J和關系數據庫MySQL,通過采用統一的接口調用后端數據庫,為前端頁面提供統一的JSON格式數據服務,前后端的交互上采用了目前流行的Flask Web框架,Flask框架具有輕量、簡潔、靈活和易上手等特點,符合本研究的需求,整體的智能服務系統架構和前端功能展示如圖7所示。

本系統提供了圖譜展示、檢索系統、問答系統三大功能。其中,圖譜展示中包含關系上傳和關系全貌兩個子功能,檢索系統中包含關系檢索和軌跡檢索兩個子功能。

關系上傳支持從前端頁面上傳用戶自建的txt格式三元組數據,利用Py2neo庫讀取數據生成對應的知識圖譜,極大方便了用戶與系統的交互行為。關系全貌展示了128位紅色歷史人物的知識關系全貌圖,通過在前端使用數據模塊中的JSON數據,再調用Echarts插件中的力導向圖來實現知識關系全貌圖,與圖6的后端使用圖數據庫Neo4J存儲的效果相比,只是樣式上有所不同,知識關聯的本質是一樣的。因此,本節主要介紹智能服務系統中的檢索系統和問答系統。

3.5.1檢索系統

檢索系統提供了關系檢索和軌跡檢索兩種方式,關系檢索是指在前端頁面直接輸入某個歷史人物,系統通過對輸入的姓名使用Py2neo庫在后端Neo4J圖數據庫中進行檢索,將返回的相關節點和關系信息轉為JSON格式數據,并在前端中利用Echarts插件的力導向圖展示出來。這里以黨的情報和保衛工作的卓越領導者與組織者,開國上將中唯一一位從未領兵打仗過的李克農上將為例,通過在關系檢索系統中輸入“李克農”后點擊檢索,頁面返回如圖8所示。

在前端展示中,針對人物的出生地點進行了不同顏色的區分,可以看出,李克農出生地點為合肥市,節點顏色為深紅,同鄉的將軍包括開國少將戴正華和顧鴻。需要說明的是,李克農同志原出生地點為安徽省巢湖市居巢區,2011年,經國務院批準,安徽省人民政府宣布撤銷地級巢湖市,原地級巢湖市所轄的居巢區劃歸合肥管轄。因此,本研究將李克農的出生地點認定為合肥市。又如李克農的戰友胡底出生地點為六安,其節點顏色為淡紅,另一戰友錢壯飛出生地為浙江湖州,在本系統中不屬于安徽省下轄市的統一以其他地點標注,顏色為灰色。同時,右下角提供了隨機人物名稱以供用戶點擊來檢索其關系信息,方便用戶進行檢索。

而在軌跡檢索方面,也是通過對輸入名稱的匹配,在后端調用相關人物的經緯度信息和事件信息,在天地圖上進行疊加顯示,并以時間順序將所有地點進行串聯,直觀展示了人物的空間軌跡。圖9展示了中國人民解放軍現代后勤工作的開拓者,在世界軍隊歷史上絕無僅有的兩次被授予上將軍銜的洪學智上將主要生平軌跡圖。

由圖9可知,洪學智將軍自1913年2月出生于安徽省六安市金寨縣,先后參加商南起義、紅軍長征、平津戰役、朝鮮戰爭等事件。中華人民共和國成立之后,被調任到吉林省農業機械廳、重工業廳等單位任職。1977年后重回中央工作,歷任國務院國防工業辦公室主任、黨組書記,1980年后任解放軍原總后勤部部長兼政治委員,中共中央軍委副秘書長、軍委委員,2006年在北京逝世。

3.5.2問答系統

為了更好地服務用戶,為用戶的提問提供精準答案,本研究構建了前后端交互的知識問答系統,采用了基于語義解析的智能問答方式。首先,當用戶在前端頁面輸入問題之后,系統會讀取該文本數據,接著調用哈工大LTP語言云平臺對問句文本進行語義解析,識別出問句文本中的實體詞和關系詞;其次,實體詞通過自定義詞典來解決實體歧義問題,關系詞通過調用哈工大同義詞詞典來解決關系歧義問題,通過調用Py2neo包在后端檢索匹配獲取目標實體;最后,以JSON格式返回,通過Echarts插件進行圖譜繪制,對涉及答案實體為人物的,還會返回相應人物的圖片資源和簡介資源。如用戶在檢索“趙瑛的丈夫是誰?”時,LTP語義解析出實體為“趙瑛”,關系為“丈夫”,此時實體沒有歧義,而關系依據同義詞詞典,此時無論是“丈夫”還是“外子”會統一為關系“丈夫”,此時通過Py2neo庫后端會返回實體“李克農”,并在前端展示出檢索問題涉及的實體和關系,因實體為人物還會顯示人物相應的圖片和簡介,結果如圖10所示。

4結語

數字人文技術為傳統人文知識的組織、關聯和服務提供了新方法,如何有效地利用這些新技術為紅色歷史資源的組織、關聯和服務是一項極具價值的研究課題。本研究借鑒了自頂向上的模型思想,以收集到的皖籍128名開國將軍為對象,構建了紅色歷史人物的智能服務原型系統,設計了從多來源、多模態數據中,提取紅色歷史人物資源構建智能服務系統的通用框架,為相關領域的研究提供了新方法與新視角。在具體實施過程中,一方面,利用知識圖譜技術實現了紅色歷史人物資源的知識組織和關聯;另一方面,利用GIS技術實現了紅色歷史人物資源的動態軌跡展示,拓展了當前數字人文研究的新模式,也為紅色歷史人物資源“活起來”提供了新路徑。

本研究構建的智能服務原型系統已初步具備了一體化的功能,可以為圖書館、博物館、紀念館等構建紅色歷史資源智慧型數據庫提供借鑒,方便其開展黨史學習、紅色教育等活動。針對用戶而言,既有直接檢索人物關聯信息的查詢方式,也有根據問句進行智能回答的問答方式,降低了用戶檢索的難度,提高了人機交互的體驗感。此外,本研究的方法具有一定的通用性和可移植性,針對不同的歷史人物資源特征,只需要在知識本體建模上根據實際需求進行修改,即可進行原型系統的復用。下一步,本研究主要從兩方面進行更進一步的研究,一是拓展紅色歷史人物的樣本集和數據集,構建大規模數據集下訓練的深度學習智能問答系統。二是探究多元化方式的智能服務,如采用微信小程序、智能服務APP等多渠道,多維度來開展多元化的服務,力圖將研究成果落地扎根。

猜你喜歡
GIS技術知識圖譜
從《ET&S》與《電化教育研究》對比分析中管窺教育技術發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合