?

基于知識圖譜的國防科技成果管理研究

2024-02-13 06:56凌晨楊偉銘李宏建
科學與信息化 2024年3期
關鍵詞:國防科技結構化圖譜

凌晨 楊偉銘 李宏建

軍事科學院/系統工程研究院 北京 100000

引言

隨著時間的推移,國防科技研究期間產生的大量的研究報告,其數量越來越多,但可供用戶利用的數據呈現出海量、多元及異構性等特征,面對龐大的數據體量,傳統檢索方法局限較強?;谥R圖譜的成果管理方法體現出其獨特的優勢,可實現對成果數據的精確分析,幫助用戶提高成果利用率。

1 成果管理研究現狀

隨著時間的推移,國防科技研究期間產生的大量的研究報告,其數量越來越多,但可供用戶利用的數據呈現出海量、多元及異構性等特征,面對龐大的數據體量,現有的檢索方法主要以數據庫和全文檢索等為主,而這都需要人工操作來完成。

然而,數據庫通常以用戶事先的定義表與表之間的關系為使用的前提和依據,這種狀況下,要獲取相關知識,只能沿著已有定義的路線進行[1]。全文檢索更是因無法實現知識之間的有效關聯而局限性較強。

傳統搜索不僅要用戶自行查看分析、總結檢索的內容和結果,還存在成果科技水平較低,描述不完整,以及成果所具備的創新性、所處階段、應用前景等關鍵性描述缺乏的狀況,而這將導致需求單位無法通過搜索來獲得自己所關注及有價值的科技成果,從而無法對成果進行再利用或者成果轉化。

搜索的結果過于簡單,無法體現成果的先進性,還需對成果做關鍵詞的提取及知識的關聯,并將相應的包含了國內外的科技論文、專利等技術成果進行匯集、技術解析,從而揭示其先進性與技術價值?;诖?,基于知識圖譜的成果管理方法應運而生,其優勢在于突破傳統搜索所無法實現的功能,實現對成果數據的精確分析,以幫助用戶提高成果利用率。

2 知識圖譜技術介紹

谷歌于2012年提出知識圖譜概念,并將其應用在搜索引擎中,且以高效性、智能化的知識組織形式呈現出獨有的特征,對于概念或實體以節點的形式來體現,而在表達關系的過程中采取節點之間的連線來完成。

各種概念或實體通過知識圖譜而被整合、串聯,形成一個巨大的關系網,為用戶分析和研究問題提供了一種“關系”視角。用戶還通過獲取知識鏈接而最終獲得了知識本身。比如搜索“船用發動機是什么”,系統可以返回推薦的知識,而非包含了“船用發動機是什么”的相關網頁或文章片段。

3 基于知識圖譜的成果管理系統設計

3.1 系統總體設計思路

已有的國防科技報告的結構化數據資源,以及非結構化的信息存儲是支撐國防科技報告數據成果實現精準化搜索、多維化分析、類比化預測及智能化推送及應用的關鍵點[2],而這部分內容主要包含了成果知識的抽取與分類、成果知識體系及成果庫搭建、成果應用3個層級。

知識圖譜的成果管理系統設計,秉承實用性的理念,其階段主要以模式構建、圖譜構建和圖譜應用為主。模式構建地目的是提升利用效率、減少冗余;圖譜構建主要依賴于對自然語言的處理和對技術的深度學習來完成,而期間,需要從結構化、半結構化的文檔中將各種成果從多源異構數據中進行提取,并將抽取到的知識經由實體鏈接和消歧之后,導入至知識圖鑒之中,有效提升成果質量、擴大規模;知識圖譜在應用過程中,專業的用戶可以利用語義搜索、智能問答、知識推送等,完成高質量結構化成果的獲取。

3.2 模式構建

本文針對知識圖鑒模式體系的構建,將以斯坦福大學醫學院的“本體構建七步法”為理論借鑒,結合國防科技報告領域數據的特點,具體見下圖。

圖1 知識圖譜的模式體系

模式層在于構建知識圖譜的模式圖,以構成實體、實體之間的關系為主,且通過圖形對其結構進行展示;數據層是對國防科技報告中的實體進行抽取,包含語義和屬性三元組抽取,獲取三元組信息,從而創建知識圖譜中的實例,其存儲及應用,以數據庫位載體來完成。

3.3 圖數據庫構建

國防科技報告圖數據的構建,首先需專家手工標注相應的知識,依據標注結果,讓機器利用相應的自動抽取工具來完成學習,進而完成知識的自動抽??;其次,機器將識別圖片中的實體、非結構化文本、事件、關系和屬性,并進行抽提,再與結構化數據庫中存儲的待開發實體完成知識融合,最后存儲到圖數據庫中[3]。且要注意完成存儲的知識,需要與結構化、非機構化的知識源實現同步,進而確保知識的維護與更新。

3.3.1 人工標注及機器學習。人工標注及機器學習的實現,主要通過數據處理來完成標注對象特征的目的,而這一過程將以機器學習基礎素材為主,以及采取分類、標注、注釋、畫框等方式,對文本、圖片、語音等數據進行處理。

基于國防科技報告分類體系及語義關聯,將報告成果文檔中的知識要素做相應的人工標注,以此為基礎,通過機器學習、深度學習等技術實現反復訓練的目的,并對相關算法和模型完成迭代和優化,最終確保機器的智能標注功能的實現。

3.3.2 知識抽取。知識抽取主要針對實體、關系和屬性三個方面,其中,實體抽取以詞典及規則為基礎,或者通過數據庫與統計相結合的形式來實現對數據源中特定類型的命名實體的提取。實現知識抽取的過程中,通常借助相應的模型,結合國防科技報告的語義詞典進行,目前,知識抽取模型最常用的以CRF 模型、LSTM模型等為主,這種模型往往是依據所命名的實體進行技術識別來實現的,以此可以獲取國防科技報告資源語義層面的關鍵詞、高頻詞,如成果名稱、簡介等實體。實體抽取時也會因為數據資源的差異性變化,因此,需結合數據特點對實體進行細化并抽取,通過對語義的理解,及對機構知識庫中名詞的解釋來進一步實現實體的智能校對功能,最后由人工審核之后入知識庫,從而有效降低錯誤率。

3.3.3 圖譜構建。國防科技報告知識圖譜構建,重點要對其中所包含的概念、實體、模型等進行抽象化處理,以此體現它們之間的各種關系狀況,在一個統一的知識圖譜之中,實現將結構化數據和非結構化知識特征參數進行融合運用。

知識圖譜主要基于RDF或圖數據庫來實現存儲,RDF即“對象-屬性-值”,其設計原則需遵循數據的易于發布和共享;圖數據庫以高效的搜索和查詢而著稱。目前圖數據庫有很多,如Neo4j、gStore、JanusGraph、OrientDB和Cayley等,其中,Neo4j以對原生圖儲存層進行“無索引鏈接”而備受重視和流行。

3.3.4 知識融合。知識融合的重點將通過數據模式層和數據層的融合來完成,前者涵蓋了概念、上下位關系及屬性之間的合并問題,通過專家人工構建的方式,或結合結構化數據實現映射,期間,數據統一的實現將依賴于設置融合規則來完成;后者的融合主要以實體合并、實體屬性融合、沖突檢測與解決為主要內容。通過對數據模式層和數據層的融合,將其存儲于圖譜知識庫中。

3.4 知識智能應用

國防科學圖數據庫的構建,在完成一定數量知識的存儲之后,其知識庫的形態將呈現出來,而后,依據數據及業務場景狀況,將提供給用戶相應的語義搜索、智能問答、知識推薦、決策支持等一系列的智能化服務,以此幫助用戶來解決工作及科研過程中的實際問題。

3.4.1 語義搜索。傳統的搜索引擎無法精準地對用戶的查詢意圖做識別,尤其對于關鍵字多語義和消歧問題更是束手無策,其搜索中需面對海量的數據結果,用戶只有通過對海量結果的分析,才能找到所需的內容。知識圖譜下的搜索能實現本體的語義檢索功能,依據本體間或實體間存在的關系,用戶所需的問題將從語義角度進行理解和解釋,語言中的歧義問題也被及時消除,避免用戶面對海量搜索結果的問題,而搜索返回過程中,也將更加精準化。

3.4.2 智能問答。智能問答以經典的“一問一答”形式所呈現,實現用戶與具有智能問答系統功能的機器進行一對一的、友好的交流互動。一定程度上而言,基于知識圖譜的智能問答屬于一種語義搜索功能的延伸和拓展,語義搜索的結果,將以一種相應的規則排序,再以相應的算法將最相關的答案排在前面。例如,以船舶建造為例,其智能問答系統的構建中,知識圖譜重點源于一些以非結構化所呈現的成果報告。

3.4.3 用戶畫像。用戶畫像即是利用一系列精確的數形、數值來呈現特定用戶的個人信息和特征。傳統意義上的用戶畫像在實現用戶標簽設計的過程中,主要以業務人員的經驗為依據,采取人工整理、歸納的方式,對于用戶設定相應的標簽,這種狀況下,盡管制作用戶標簽的難度不高,但是對于標簽進行語義理解進而開展聯想推理等深層的應用較為困難,而這正是知識圖譜所擅長的。

知識圖譜下的用戶畫像,將客觀世界的知識以實體與屬性、關系、概念等結構抽象進行表示、儲存,進而形成機器能夠理解的格式,以便讓用戶對于畫像標簽的理解不再停留在文本表示本身,而是可以利用背后的知識庫實體層和概念層實現深層畫像應用[4]。

3.4.4 個性化推薦。個性化推薦是根據用戶的個性化特征,為用戶推薦感興趣的報告。個性化推薦系統將基于對用戶職級、專業等分析的基礎之上,通過個性化的算法,圍繞用戶的實際需求、個性特征和興趣喜好形成相應的科技報告,其屬性、分類、內容等均與用戶和科技成果之間形成一定的關系和關聯,以此實現為用戶推薦感興趣的成果或者技術內容的目的。

4 結束語

通過對知識成果管理及應用技術的研究,實現成果知識圖譜的構建,通過知識抽取、實體屬性關聯等手段實現相應成果報告、科技文獻等的統一性,挖掘其內在關聯,于國防科科研人員而言,借助知識圖譜可完成快速檢索資料、提高認識的目的。以及采取相應的手段和技術對非結構化、板結構化成果進行處理和知識融合,將有效提升數據的管理能力,奠定未來國防科技大數據綜合應用的堅實基礎。

猜你喜歡
國防科技結構化圖譜
美國國防科技集成創新初探
促進知識結構化的主題式復習初探
區域國防科技創新生態系統的構成與培育
繪一張成長圖譜
結構化面試方法在研究生復試中的應用
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
基于圖模型的通用半結構化數據檢索
基于軟信息的結構化轉換
雜草圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合