?

油田環保安全領域標準智能問答關鍵技術研究

2024-05-08 08:18魯小輝王凱月
標準科學 2024年4期
關鍵詞:標準

魯小輝 王凱月

摘 要:油田環保安全領域標準對于規范和引導油田行業安全生產、綠色發展和效率提升具有重要意義。油田環保安全領域標準知識復雜程度較高,難以形成對標準數字知識的雙向理解路徑,為有效解決上述問題,本論文進行油田環保安全領域標準智能問答關鍵技術研究。首先,進行FAQ引擎設計,包括研究基于語義相似度的問題快速匹配技術、基于深度學習的相似度重排技術,對用戶行為進行評分;其次,進行KGQA引擎設計,包括研究語義庫設計模型和基于Graph的搜索匹配模型;最后,設計多引擎加權打分機制,能夠實現油田環保安全領域標準智能問答。

關鍵詞:油田環保安全領域,標準,智能問答

DOI編碼:10.3969/j.issn.1674-5698.2024.04.009

0 引 言

隨著大數據、云計算、人工智能等新一代信息技術的發展和應用逐漸走向成熟,日益滲透到經濟社會的各個領域。在油田環保安全領域,我國標準數字化應用水平總體處于紙質標準電子化、結構化、語義化的初級數據建設階段,缺乏可交互標準數字化應用和探索。油田環保安全領域標準知識復雜程度較高,難以形成對標準數字知識的雙向理解路徑,一方面標準間的數據關聯關系及數據結構復雜,可能導致機器無法準確理解人類多輪提問需求;另一方面機器生成內容可能不符合人的閱讀和理解邏輯,導致人類無法高效全面理解機器生產的內容,造成人員提出的問題與機器給出的答案不匹配等問題。

針對上述不足,本文旨在深入探討油田環保安全領域標準智能問答的關鍵技術。首先聚焦于FAQ(Frequently Asked Questions)引擎的設計。這一階段主要包括基于語義相似度的問題快速匹配技術的研究,以及基于深度學習的相似度重排技術。這些技術的目的是為了更準確、迅速地識別和匹配用戶提出的問題。此外,研究還涉及對用戶行為進行評分,這有助于了解用戶需求,從而提高問答系統的效率和準確性。其次,文章著眼于KGQA(Knowledge Graph Question Answering)引擎的設計。在這一部分,研究集中于語義庫設計模型和基于圖(Graph)的搜索匹配模型的開發。這些模型旨在利用知識圖譜,以更加復雜和高級的方式處理和回答問題,使得答案更為精確和全面。最后,研究提出了一種多引擎加權打分機制的設計。這種機制能夠綜合FAQ引擎和KGQA引擎的優勢,通過加權打分來確定最優的回答方案。通過這種方法,可以實現更為高效和準確的油田環保安全領域標準智能問答,從而大幅提升信息檢索和問題解決的質量。整體而言,本研究在智能問答技術領域為油田環保安全標準的應用提供了一種新的視角和方法論。

1 研究現狀綜述

在這個信息爆炸與科技高速發展的時代,如何從繁雜的海量數據中提取準確所需信息,成為了研究的重點。全問答(question answering, QA)作為解決這一問題的關鍵手段之一,通過對數據信息進行檢索、分析,最終向用戶提供問題的答案或相關信息。問答系統在語言建模的核心挑戰在于如何更好地理解和處理自然語言。其中,詞嵌入(word embedding)方法扮演了重要角色。詞嵌入是一種將詞語轉換為向量的技術,可以使計算機更好地理解詞語之間的關系和含義。傳統的詞嵌入方法主要包括Mikolov T等人于2013年提出的Word2Vec[1]和Pennington J等人于2014年提出的GloVe[2]模型。Word2Vec模型是通過將詞匯量化為向量,實現了對詞語之間關系的定量度量,主要包括連續詞袋模型(CBOW)和跳躍模型(skipgram)兩種模型。 在CBOW模型中,通過上下文來預測目標單詞;而在skip-gram模型中,則是通過目標單詞來預測上下文。這兩種模型都能有效地捕捉詞與詞之間的聯系。GloVe模型則與Word2Vec有所不同。GloVe更加關注單詞同時出現的概率比率,而非簡單地關注共現概率分布。它的特點在于不需要計算共現次數為零的單詞對,從而減少了計算量和數據存儲空間。GloVe通過分析整個數據集的詞匯共現信息,從而更好地捕捉到單詞間的全局關系。這兩種方法都在問答系統的語言理解能力提升上起到了關鍵作用。通過這些先進的詞嵌入技術,問答系統能夠更有效地處理復雜的語言信息,更準確地理解用戶的問題,并提供相關的答案。然而,這些傳統的詞嵌入方法在處理詞義多樣性、上下文靈活變化等方面還存在局限性,這也推動了后續如BERT[3]等更先進的語言表示模型的發展。

BE RT是一個具有里程碑意義的自然語言處理(N L P)模型,由G o o g l e在2 018年推出。它的核心是采用了生成式的掩碼語言模型(Ma ske dLanguage Model, MLM)和雙向Transformer結構。BERT的訓練分為兩個階段,首先是預訓練階段,BERT在大規模的數據集(如:BooksCorpus和英語維基百科[4])上進行無監督學習,這一階段的目的是讓模型學習語言的基本規律和模式;其次是微調階段,針對特定的NLP任務(如:情感分析、問答系統、命名實體識別等),將任務相關的數據輸入到預訓練好的BERT模型中,并進行參數的微調,使模型適應特定的任務。

問答系統想要滿足用戶需求, 主要需處理3個問題: 問題分析、信息檢索和答案生成。根據問答系統信息源的數據類型的不同, 可將問答系統分為: (1)數據來源于結構化知識圖譜的問答系統;(2)數據來源于對話、問答對的基于問答對的問答系統; (3)數據來源于自由文本的基于機器閱讀理解的問答系統。其中,關于基于知識圖譜問答系統的應用, 大多集中在特定領域,如:醫療領域、金融投資領域、電商領域、聊天機器人領域等?;趩柎饘Φ膯柎鹣到y使用較為普遍,早期美國在為用戶提供航班信息時開發的SLS項目,歐盟開發的列車時刻信息系統和保險合約查詢電話呼叫中心等[5]。目前,各大IT公司也開發了各種聊天機器人,如:蘋果的Siri、微軟小冰、小米、小愛等?;跈C器閱讀理解的問答系統是由計算機自動根據給定的語料資料來回答用戶所提出的問題,目前受到了越來越廣泛的關注,與FAQ、KBQA等優勢互補,形成更完備、更智能的問答系統。

油田環保安全領域標準智能問答技術研究面向特定領域,相較于一般的智能問答系統具有更高的專業性和準確性。因此,油田環保安全領域標準問答系統在構建過程中,重點采用基于知識圖譜、基于機器閱讀理解的方法來開展智能問題系統研究。

2 油田環保安全領域標準智能問答引擎設計

2.1 FAQ引擎

(1)工作原理

FAQ引擎是基于常見問題的相似比對引擎,主要涉及收集并組織常見問題及其答案,然后通過用戶界面使用戶能夠搜索或瀏覽這些問題。當用戶提出查詢時,引擎通過關鍵詞匹配或使用自然語言處理技術來理解用戶的查詢意圖,從而檢索出最相關的答案。這些答案隨后以易于理解的格式呈現給用戶。此外,FAQ系統通常會收集用戶反饋,以不斷優化答案的準確性和相關性,有時還會集成聊天機器人來提供更實時的互動。

(2)基于語義相似度的問題快速匹配技術

基于語義相似度的問題快速匹配技術是一種智能技術,用于計算用戶輸入問題與數據庫中存儲問題之間的語義相似度。它通過分析和理解問題的意義而不僅僅是關鍵詞,能夠識別出語義上最為接近的問題。這種技術運用自然語言處理(NLP)和機器學習算法,以確保提供的候選答案在語義上與用戶的查詢盡可能匹配,從而提高問題解答的準確性和效率。

(3)基于深度學習的相似度重排技術

應用深度學習技術,將問題與候選答案進行深度語義比對,計算用戶輸入與候選答案之間的相似度,根據計算結果,對候選答案集進行重新排序。

(4)用戶行為評分

對于推薦的相似問題,如果用戶點擊后,系統會記錄該事件,對當前提問問題與點擊的相似問題建立一個關系。相似問題之間的關系可在系統投票選舉環節,進行加權評分,提高推選答案的排名。

2.2 KGQA引擎

(1)工作原理

先對油田環保安全領域標準問題庫進行梳理,形成知識圖譜的三元組結構,在此基礎上,定義基于知識圖譜的問題模板,構建問題模板庫。

油田行業知識圖譜,是油田領域標準的結構化語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是【實體,關系,實體】或者【主體,謂詞,客體】三元組,以及實體及其相關屬性值對,實體之間通過關系相互聯結,構成網狀的知識結構。

在問答系統中,把三元組定義為【主體,屬性,答案】,這樣在問答過程中,通過給定主體與屬性兩個維度查找知識圖譜中的答案。

問答過程主要分為兩個步驟,其一是問題理解,通過問題理解識別到該問題的具體意圖,也就是問題的知識主體與知識屬性;其二是答案搜索,根據問題理解獲得的知識主體與知識屬性,查找知識圖譜中的具體答案。例如:油田含油污泥處置后泥渣利用污染物控制限制值的知識本體如下:

【油田含油污泥處置后泥渣利用污染物A s(mg/kg),控制限制值,≤30(mg/kg)】

知識主體:油田含油污泥處置后泥渣利用污染物As

知識屬性:控制限制值

知識答案:≤30(mg/ kg)

用戶可以提問“油田含油污泥處置后泥渣利用污染物As的控制限制值?”“含油污泥處置后利用As的限制值?”“泥渣利用污染物As限制值?”,通過問題理解,識別到用戶的意圖是【油田含油污泥處置后泥渣利用污染物As,控制限制值,?】,再通過答案搜索,查詢知識圖譜中的具體答案,“≤30(mg/ kg)”。

問題理解是基于語義表達式,通過關鍵術語來匹配用戶問題,例如:油田含油污泥處置后泥渣利用污染物As的控制限制值問題,可定義表達式如下:

【油田含油污泥處置后】【泥渣利用污染物As】【控制限制值】

【油田含油污泥處置后】【控制限制值】【泥渣利用污染物As】

至此就完成了一個簡單的意圖,但是泥渣利用污染物有著通用元素的意圖,為了擴大表達式的覆蓋范圍,可以將此抽象為一個實體,如下所示:

【$對象實體】【$指標實體】

其中,【$對象實體】表示一個實體,代表泥渣利用污染物。當用戶提問“泥渣利用污染物As?”,匹配結果如下:

匹配表達式:【$對象實體】【$指標實體】

匹配實體:【$對象實體:泥渣利用污染物】

匹配意圖:【泥渣利用污染物的As,控制限制值,?】

當用戶提問“泥渣利用污染物的As的控制限制值?”。

【泥渣利用污染物】【As】≠【泥渣利用污染物】【As控制限制值】

這時需要將“As”與“As控制限制值”定義為同義詞組【As控制限制值;As】,通過同義詞擴展表達式的覆蓋范圍。

【泥渣利用污染物】【As】=【泥渣利用污染物】【As】

(2)語義庫設計模型

底層語義庫由詞庫、對象庫、知識庫3部分組成。

構建詞庫的目的主要是為了分詞、構造語義表達式以及使用詞本身攜帶的語義信息進行語義相似度計算。詞庫是由多個詞類組成,詞類由詞類名和一個或多個同義或同類詞構成。在“泥渣利用污染物的As”的實例中,【$對象實體】定義為詞類,其屬性為實體詞類,其下定義的所有詞均為具體實體?!続s控制限制值;As】定義為同義詞組,其屬性為普通詞而非實體詞,意味著并不需要識別該詞的詞類。

構建對象庫(語義庫)的目的主要是為了實例化對象類,從而快速創建某一領域的知識點,是對知識庫中的對象類實例以及屬性知識點與相互關系的嚴格刻畫。對象庫由屬性名、標準問題模板和一組屬性語義表達式所構成。對象庫中的語義表達式使用詞庫中的詞類,由一個或多個實體對象符或關鍵詞組成,例如:【$對象實體】【檢測方法】,其中【$對象實體】為實體對象符,【檢測方法】為關鍵詞。

構建知識庫的目的主要是為了根據業務需求來組織和管理知識點。實例可以是對象類的實例化,當實例為對象類實例時,該實例下所有的知識點都是屬性知識點,實例語義在實例化對象的過程中替換屬性語義表達式中的“對象符”,進而生成知識點的語義表達式。

(3)基于Graph的搜索匹配模型

KGQA引擎基于Graph的DFS(深度優先搜索)實現語義表達式的快速模式匹配。

深度優先搜索屬于圖算法的一種,英文縮寫為DFS即Depth First Search。其過程簡要來說是對每一個可能的分支路徑深入到不能再深入為止,而且每個節點只能訪問一次。深度優先搜索的特點:每次深度優先搜索的結果必然是圖的一個連通分量。深度優先搜索可以從多點發起。如果將每個節點在深度優先搜索過程中的“結束時間”排序(具體做法是創建一個list,然后在每個節點的相鄰節點都已被訪問的情況下,將該節點加入list結尾,然后逆轉整個鏈表),則我們可以得到所謂的“拓撲排序”,即topological sort.

K G Q A引擎將定義的語義表達式,拆解為Graph節點并存放于Graph內存數據庫中,例如:

【$污染物】【控制】【方法】

【$污染物】【控制】【流程】

【$污染物】【處置】【方法】

【$污染物】【處置】【依據】

【$污染物】【監測】

【$污染物】【利用】

轉化為如圖1所示Graph有向圖結構。

2.3 多引擎加權打分機制

油田環保安全領域標準智能問答系統采用的是一種基于柔性多引擎加權打分的問答機制,將基于模板的匹配結果(KGQA)與基于語義相似度的匹配結果(FAQ)進行基于多特征加權的結果整合,輸出綜合打分最高的一組結果作為候選結果。

多引擎調度采用線程池技術進行管理,處理過程中將任務添加到隊列,然后在創建線程后自動啟動這些任務,線程池線程都是后臺線程。每個線程都使用默認的堆棧大小,以默認的優先級運行,并處于多線程單元中。如果某個線程在托管代碼中空閑(如:正在等待某個事件),則線程池將插入另一個輔助線程來使所有處理器保持繁忙。如果所有線程池線程都始終保持繁忙,但隊列中包含掛起的工作,則線程池將在一段時間后創建另一個輔助線程但線程的數目永遠不會超過最大值。超過最大值的線程可以排隊,但它們要等到其他線程完成后才啟動。

3 結果與討論

針對當前油田環保安全標準領域智能問答人機互動性較差,尚未形成人機雙向理解路徑,基于FAQ引擎和KGQA引擎及相關技術開展面向油田環保安全標準的雙向閱讀理解和智能問答的語言預訓練,訓練結果如圖2所示。

智能問答系統雖然已經取得了一定進展,但仍存在一些問題和局限性,需要進一步改進。(1)現有系統可能在處理復雜、模糊或多層次的查詢時遇到困難,尤其是涉及抽象概念或深層次語義理解的問題。(2)油田環保安全領域標準智能問答系統提供信息的準確性和可靠性有待進一步提升,特別是在處理少見的話題時。(3)油田環保安全領域標準智能問答系統的效果很大程度上取決于其油田環保安全標準知識庫的質量和時效性,需要定期更新和必要的維護。解決這些問題需要綜合運用更先進的自然語言處理技術,深度學習算法、用戶界面設計原則和數據保護措施。隨著技術的不斷進步,油田環保安全領域標準智能問答系統的性能和用戶體驗預期將持續提高。

參考文獻

[1]Mikolov T, Sutskever I, Chen K, et al. Distributed r epr e sent at ion s of wor d s a nd ph r a se s a nd t hei rcompositionality[A]. Proceedings of the 26th International Conference on Neural Information Processing Systems[C].Lake Tahoe: ACM, 2013:3111–3119.

[2]Pennington J, Socher R, Manning C. GloVe: Global vectors for word representation[A]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)[C]. Doha: Association for Computational Linguistics, 2014:1532–1543.

[3]Devlin J , C ha ng M W, L ee K , e t a l. B ERT: P ret r a i n i n g o f de ep bid i r e ct ion a l t r a n s for mer s for language understanding[A]. Proceedings of the 2019 Conference of the Nor th American Chapter of the Association for Computational Linguistics: Human Language Technologies[C]. Minneapolis: Association for Computational Linguistics, 2019:4171–4186.

[4]Zhu YK, Kiros R, Zemel R, et al. Aligning books and movies: T owards s tory-like v isual e xplanations b y watching movies and reading books[A]. Proceedings of the 2015 IEEE International Conference on Computer Vision[C]. Santiago: IEEE, 2015:19-27.

[5]Den Os E, Boves L, Lamel L, et al. Overview of the ARISE project[A]. Proceedings of the 6th European Conference on Speech Communication and Technology[C]. Budapest:ISCA, 1999:1527-1530.

[6]武鴻浩. 公安領域中知識圖譜的構建與應用研究[J].網絡安全技術與應用,2018(8): 93-94+127.

[7]孫利宇,錢家俊. 公安知識圖譜助力智慧警務落地[J].數字通信世界,2018(7):23+48.

[8]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J]. 計算機研究與發展,2016,53(3) :582-600.

[9]王鑫,鄒磊,王朝坤,等.知識圖譜數據管理研究綜述[J].軟件學報,2019,30(7) :2139-2174.

猜你喜歡
標準
2022 年3 月實施的工程建設標準
忠誠的標準
標準匯編
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業“成長中的煩惱”
2015年9月新到標準清單
標準觀察
標準觀察
標準觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合