?

威脅情報提取與知識圖譜構建技術研究

2023-09-07 08:47史慧洋魏靖烜蔡興業高隨祥張玉清
西安電子科技大學學報 2023年4期
關鍵詞:情報本體威脅

史慧洋,魏靖烜,蔡興業,王 鶴,高隨祥,張玉清,,6

(1.中國科學院大學 計算機科學與技術學院,北京 101408;2.中國科學院大學 國家計算機網絡入侵防范中心,北京 101408;3.中國科學院大學 沈陽計算技術研究所,遼寧 沈陽 110168;4.西安電子科技大學 網絡與信息安全學院,陜西 西安 710071;5.中國科學院大學 數學科學學院,北京 101408;6.中關村實驗室,北京 100094)

1 引 言

當今網絡攻擊手段日趨成熟,兩方博弈中,如何快速利用威脅情報分析對手的攻擊行為,從而彌補自身的不足,由被動防御轉為主動進攻。如何從海量的數據中快速提取有效的威脅情報,如何對離散分布的各類威脅情報進行有效收集并有效利用,如何將威脅情報融合分析發揮整體威力,已成為學術界關注的熱點。威脅情報經過聚合和標準化、去重去偽,使用混合策略納什均衡來評估時間威脅等級,從而預測攻擊行為[1]。

威脅情報主要包括以下幾種標準格式:結構化威脅信息表達(Structured Threat Information eXpression,STIX)、可信任的指標信息自動變換(Trusted Automated eXchange of Indicator Information,TAXII)、網絡可觀察表達(Cyber Observable eXpression,CybOX)和惡意軟件屬性舉和描述(Malware Attribute Enumeration and Characterization,MAEC)。文中采用STIX標準格式,STIX 可以使用對象和描述性關系來表達可疑、攻陷和溯源的所有方面的內容;通過關系連接多個對象可以簡化或復雜地表示網絡空間威脅情報。其優勢在于類型豐富,適用于各類場景,能夠獲取更為廣泛的網絡威脅信息,且更加標準化和結構化。

隨著人工智能以及自然語言處理(Natural Language Processing,NLP)技術的發展,出現大量信息抽取工具,如自然語言處理的Stanford NLP工具和NLTK(Natural Language ToolKit)工具包,還有THUTag清華關鍵詞抽取工具包等,在這些工具的基礎上,結合第三方詞庫進行數據標記,采用數據庫匹配、啟發式規則和安全詞集3種方式對文本數據進行標記,記錄BIO(Begin,Inside,Outside)標簽[2]。因此,文中使用BIO標簽作為特征提取方法,使用神經網絡進行非結構化文本中安全信息的提取。

本體是同一領域中不同主體之間的交流和聯系的語義基礎[3]。文中參考威脅情報數據標準STIX格式提出本體構建,并作為圖數據庫模式。本體構建的過程是首先將實體和提取的關系構建成知識網絡,然后將數據轉換為知識,并將知識與應用相結合。通過本體構建可以促進知識的融合,從而發揮數據的實用價值。

知識圖譜由谷歌提出,作為搜索引擎的輔助存儲知識庫。知識圖譜主要是以多種不同形式分發的信息通過關聯融合,形成了統一的高質量知識。文獻[4]根據現有知識推理,挖掘潛在知識,同時,產生新知識。目前,在威脅情報領域中知識圖譜的研究和應用還處于起步階段。

文中技術研究的貢獻如下:

(1) 提出了一種基于Bert+BiSLTM+CRF(Conditional Random Fields)的失陷指標(Indicator Of Compromise,IOC) 識別抽取方法。通過對非結構化文本信息的分析處理,并將其與正則匹配方法相結合,從中抽取出需要的IOC信息并進行標準化輸出,得到STIX標準格式的數據。

(2) 構建威脅情報的知識圖譜框架,包括情報搜集、信息抽取、本體構建和知識推理4個過程。

(3) 基于STIX構建威脅情報本體模型,以知識圖譜的形式表示重要指標和威脅情報實體間的關系,設計出威脅情報檢索系統。結合ATT&CK描述攻擊行為,挖掘出威脅情報潛在關聯信息和攻擊主體。

2 相關工作

失陷指標指在網絡或操作系統中觀察到的偽像,指示計算機入侵行為并在早期檢測到網絡攻擊,因此,它們在網絡安全領域中發揮著重要作用。但是IOC檢測系統嚴重依賴具有網絡安全知識的專家的判斷結果,因此研究需要大規模的手動注釋語料庫來訓練IOC分類器。

何志鵬等[5]總結概述了國際上部分國家(組織)在網絡威脅情報領域開展的標準化工作。孫銘鴻等[6]介紹了情報、威脅溯源對國家層面的影響。在威脅情報識別抽取技術中,基于web爬蟲和郵件解析的技術具有構造方便、模型簡單的優點,缺點在于精度很低,對于復雜的場景不能做出很好的處理。隨著人工智能和NLP 技術的發展,徐留杰等[7]提出了一種多源網絡安全威脅情報采集與封裝技術,首先針對不同來源的威脅情報進行搜集處理,最后生成JSON 格式的標準化情報庫。HUANG 等[8]提出了一種基于雙向長短期記憶的序列標記模型用于命名實體識別(Named Entity Recognition,NER)任務。LONG等[9]提出了利用基于神經的序列標簽從網絡安全文章的非結構化文本抽取IOC 模型。該模型引入了多頭注意力機制和上下文特征,顯著提高了IOC 識別的性能。LAMPLE等[10]提出了將LSTM 編碼器與word embedding和神經序列標記模型相結合的方法,在命名實體識別任務和詞性標記任務上取得了顯著的效果。

LANDAUER等[11]從原始日志中提取網絡威脅情報,所提方法還利用數據異常檢測來揭示可疑日志事件,這些事件用于迭代聚類、模式識別和優化。KUROGOME等[12]提出了枚舉和優化勒索軟件的枚舉和推斷家族典型示例(Enumerating and Inferring Genealogical Exemplars of Ransomware,EIGER) 的方法,通過惡意軟件的跟蹤自動提取生成可靠的IOC。該方法首先利用TextRank 生成文章的摘要,然后按文章的時間戳對摘要和實體進行排序,生成安全事件鏈的網絡威脅情報(Cyber Threat Intelligence,CTI)。胡代旺等[13]使用輕量級預訓框架ALBERT、圖卷積網絡和負樣本學習三元組損失,提出了一種新的實體關系抽取算法。郭淵博等[14]使用BiLSTM融合Focal loss和字符特征就行實體抽取,驗證了其有效性。程順航等[15]融合自舉法與語義角色標注,利用少量樣本構建語義實體之間的關系。

通過相關研究分析,文中采用從安全文章中提取IOC的方式來獲得標準化威脅情報。雖然其獲取過程需要更多的工作,但其優勢在于可自定義抓取所需時間段內的文本數據,因此時效性較高。此外,安全文章通常是經過專業安全人員審核發表,IOC信息可對應到文章所提到的具體事件,其可信度更高,具有更高的數據價值。在抽取技術方面,現有的研究工作表明,使用深度學習相關的技術會有更好的效果。因此,文中在模型的構建上采用了NER命名實體識別技術。

關于威脅情報的實體有如下信息:pattern_type(模式類型)、valid_from(有效期)、pattern_version(模式版本)、name(威脅情報名稱)、indicator_types(指標類型)、created(創建時間)、pattern(攻擊模式)、labels(情報標簽)、spec_version(情報規格版本)、modified(情報修改時間)、type(情報類型)、id(情報編號)、is_family(威脅情報是否相關)、description(情報描述)、ip(攻擊網絡地址)、domain(域名)等。文中設計的實體之間具有松耦合性,為本體的擴充留下了充足的空間。與此同時,在本體關系及約束規則下,本體之間關聯融合,從而豐富和完善了威脅情報領域知識圖譜。

知識圖譜首先通過不同形式分發的信息,關聯融合后形成統一的高質量知識。然后根據現有知識推理,挖掘潛在知識,同時產生新知識。因此,設計威脅情報的知識圖譜,目的是將知識映射技術引入威脅情報領域。最后,針對開源威脅情報的輸入,采用Kill-Chain 模型、鉆石模型或異構信息網絡模型,結合現有的開源威脅情報和實時數據,對威脅情報進行深入關聯、碰撞和分析,找到潛在的攻擊行為,并通過推理挖掘揭示隱藏的攻擊鏈和其他威脅信息。石波等[16]驗證了基于知識圖譜的安全威脅感知方法更適用于對高強度安全威脅的感知。

在知識圖譜構建的相關研究中,董聰等[17]提出情報知識圖譜構建的框架和關鍵技術。包括信息抽取、本體構建和知識推理等。WU等[18]提出了一種創新的基于本體和基于圖的方法來進行安全評估,該方法利用本體模型的推理能力生成攻擊圖和評估網絡安全性。劉強等[19]采用了聯合學習的方法,說明了該端到端威脅情報知識圖譜構建方法的有效性。對于在線社交網絡用戶,GONG等[20]提出了新的隱私攻擊來推斷屬性,文中的攻擊是利用在線社交網絡上公開提供的看似無害的用戶信息來推斷目標用戶的缺失屬性。GASCON等[21]介紹了一種威脅情報平臺,可通過基于屬性圖的新型類型不可知相似性算法,對不同標準進行統一分析,并對威脅數據進行關聯,提高組織的防御能力。XU等[22]提出了一個新的模型,用于解決二進制代碼分析的問題。

3 知識圖譜構建框架作

威脅情報知識圖譜構建的目的是借助知識圖譜技術將分散的威脅情報集成在一起,建立和完善威脅情報評估機制[23]。通用知識圖譜的構建基于知識的廣度,目的是建立一個覆蓋所有領域的通用搜索輔助知識庫,而威脅情報知識圖則需要實現深度知識系統的構建,從而達到使知識系統適應實際應用的目的。因此,威脅情報知識圖譜的構建不同于一般知識圖譜的構建。文中在前人對知識圖譜研究的基礎上,提出了知識圖譜構建流程圖,如圖1所示。

圖1 知識圖譜構建流程圖

圖1中數據采集的任務是通過分布式爬蟲等方式從網絡中威脅情報開放網站獲取情報信息。知識抽取包括通過第三方開源包如jieba分詞工具對實體進行抽取,然后利用深度學習方式抽取出威脅情報實體及其關系,從而獲得有用信息。實體指安全活動中的主體信息,例如漏洞病毒、事件等;關系是指安全實體間存在的關聯關系,如攻擊者與漏洞的關系,病毒和惡意行為的關系等;本體構建過程是在標準威脅情報表達式STIX格式的基礎上,結合獲取信息的實際情況,進行圖的本體構建。對抽取出的知識進行存儲,主要是將獲取的知識存入圖數據庫[24]。文中采用neo4j數據庫形成情報知識圖譜后,便于知識的增刪查詢及數據的可視化展示。

3.1 情報搜集

數據采集的任務是通過分布式爬蟲等方式從網絡中威脅情報開放網站獲取情報信息,威脅情報信息分為無結構化數據、半結構化數據和結構化數據。從6個安全平臺爬取了總計1 172 條安全博客高級持續性威脅(Advanced Persistent Threat,APT)攻擊報告,情報來源既有國內知名情報廠商,也有訪問度較高的情報共享開源平臺,包括Feebuf、GreenSnow、blocklist、奇安信、VirusTotal和360等。爬取過程如下:首先設置反爬蟲機制,添加Cookie用來偽裝身份ID;在各個安全網站中自定義搜索中輸入APT 攻擊報告,采用廣度優先搜索的方式,遍歷查詢列表,通過檢查定位資源,使用爬蟲的方式獲取文章的統一資源定位符(Uniform Resource Location,URL),再通過URL獲取文章內容信息。

通過對文章內容進行人工審查發現,部分報告對于攻擊行動的描述過于簡單,關于攻擊模式、攻擊過程等信息的記錄不充分。為避免模型訓練受到數據的影響并且獲取更多的有價值信息,可從文章篇幅、規范程度、描述細節等幾個標準進行篩選,盡量選擇篇幅較長且具體的介紹了整個攻擊流程的文章。最終挑選了爬取的745 篇,提取出其正文文本信息,作為本實驗的原始數據集,如表1所示。

表1 原始安全報告信息

3.2 識別抽取

通過攻擊報告發現,報告在正文內容中描述了攻擊策略技術、惡意軟件和惡意IP等,這些IOC信息在報告中通常以固定的格式標準出現。例如,在沙箱環境中監控惡意軟件等動態分析方法,使用Snort等網絡安全工具來監控網絡流量。由此可見,IOC信息提取是一項非常重要的任務,可以幫助安全專家更好了解網絡攻擊的策略、目標和工具,以及加強系統防御。但是采用正則匹配會存在非惡意IP等信息被誤提取和IOC信息被漏報。因此,文中首先考慮利用神經網絡建模的方法,引入上下文特征,然后采用正則匹配和命名實體識別相結合的辦法識別抽取。

3.2.1 識 別

首先對文本信息進行向量化操作,將其映射為數字向量。文中采用Google公司推出的基于Transformer的 Bert 模型將文本信息處理為詞向量。在輸入時,Bert的編碼方式與Transformer的相同。以固定長度的字符串作為輸入,數據從下到上傳輸,每層都采用自我注意的方式,可表示為

(1)

多頭自注意機可表示為

(2)

輸出是每個位置返回的隱藏層大小向量,定義為Bert(x)。與傳統的詞向量詞word2vec相比,Bert模型的優點是引入上下文特征,可以有效地捕捉上下文的依賴關系,使向量空間中上下文相似的語料庫距離非常近,因此可以產生更準確的特征表示,對IOC的識別、提取和判斷是否為惡意信息非常有效。

該神經網絡模型是基于循環神經網絡(Recurrent Neural Network,RNN)的變體 BiLSTM 模型。BiLSTM作為RNN的變體,在處理此類數據上具有更為優秀的表現。BiLSTM由前向LSTM和后向LSTM組成。當輸入詞向量為 [w1,w2,w3,…,wn] 時,前向LSTM將得到n個詞向量[hr1,hr2,hr3,…,hRn];當輸入詞向量為 [wn,wn-1,wn-2,…,w1] 時,后向LSTM將得到n個詞向量[hln,wl3,wl2,…,wl1]。將前向和后向量拼接在一起后,可以得到[H0,H1,… ,Hn]。該向量包含向后信息,即也包含上下文特征,對順序文本信息的處理有很好的影響。由于該模型采用了Bert預訓練模型來獲得單詞向量,因此,BiLSTM層的輸入是上一層的Bert層的輸出,可表示為

BiLSTM(w)=S[LstmL(w),LstmR(w)] ,

(3)

其中,S[L,R] 表示l和r拼接的輸出,w表示上面Bert層的輸出Bert(x)。

在命名實體識別任務中,詞向量通過神經網絡模型即可輸出標簽分值,即每個標注詞的概率,可以選擇一個分值最大的標簽作為該字符的標簽,但是無法保證概率最大的就是正確的預測結果。因此,在命名實體模型中,在神經網絡模型輸出后增加一個條件隨機場(Conditional Radom Field,CRF)層,CRF 在假定隨機變量構成馬爾科夫隨機場的前提下,預測一組隨機變量的條件分布。

一代青年有一代青年的成長,一代青年有一代青年的使命,成長各異,使命相同。黨的十九大報告描繪了“兩個一百年”的宏偉藍圖。中國石化提出了“兩個三年、兩個十年”的發展戰略。在這一跨越近30年的歷史進程中,石化青年生逢其時,成長期、奮斗期與民族復興、企業奮進的目標同向同行,將完整經歷實現新時代目標的偉大進程,成為強國夢、強企夢的親歷者和見證者、追夢者和圓夢人。

在該模型中,在 CRF 層充分的引入了文本與標簽的對應關系和文本的上下文標注關系,通過對輸出標簽二元組進行建模,使用動態規劃算法找出得分最高的路徑作為最優路徑進行序列標注。避免出現得到的文本標簽出現前后沖突的情況,在最后輸出時為最后的預測結果添加一個限制標簽,以此來控制提高輸出結果的正確性,并預測最有可能的標簽序列,即

(4)

其中,score(y)為BiLSTM層的輸出,對應于條件下標簽y的概率;T矩陣包含兩個相鄰實體標簽的轉移概率,表示標簽為后標簽項的概率。該功能是為了避免文本標簽之間的沖突,并在預測結果中添加一個限制標簽,以控制和提高輸出結果的精度。

3.2.2 模型融合

通過以上的描述,可得到最終的模型結構的文本表達為

Result=Re(BiLSTM(Bert(x))+score(y)) 。

(5)

首先,引入了正則性來提取可能的識別結果集。在詞向量層中,使用Bert預訓練模型進行編碼;然后將其輸入到BiLSTM層得到特征和預測結果,并將該層的結果輸入到CRF得到最優解,Re(x)表示一個常規的輸出限制。

3.2.3 提 取

采用Bert+BiLSTM+CRF的方法進行實體和關系抽取。首先對原始數據進行數據清洗預處理,然后按照以下兩個流程進行抽取:一種是定義正則表達式,抽取出文章中的IOC 匹配數據;另一種是對標注好的數據進行詞向量生成,構建神經網絡模型。之后獲取模型的抽取結果,將兩種結果進行匹配。將正則匹配結果中出現在模型輸出結果中的信息直接輸出;對于未出現在模型輸出結果中的信息將其上下文標注為疑似IOC,重新輸入到模型中,用于二次識別抽取,再輸出抽取結果,以此來更加準確地抽取出文章中的IOC 信息。算法流程如圖2所示。

圖2 IOC抽取算法流程圖

以“蔓靈花攻擊行動(簡報)”為測試樣本舉例說明抽取流程。首先將測試樣本進行數據清洗后,通過定義正則表達式,抽取候選集合:{RequirementList.doc,…,C:ProgramDataMicrosoftDeviceSynctemp.txt }作為正則匹配候選集;將樣本輸入到訓練好的Bert-BiLSTM-CRF模型中,與正則匹配候選集進行匹配驗證,最終輸出得到“蔓靈花攻擊行動(簡報)”抽取結果(為表達直觀,采用< >框選實體部分)。

蔓靈花攻擊行動(簡報)標注結果:研究人員發現,該組織經常使用<魚叉郵件>攻擊的手法,<魚叉郵件>中包含來誘導用戶點擊,其使用的漏洞是Office的經典漏洞。用戶點擊之后,漏洞文檔中的被執行,調用從指定的網址中下載木馬程序,使用CMD命令重命名后執行,實現RAT的下載安裝。除了基本的漏洞文檔,還有圖標偽裝成圖片文件的exe,誘導用戶進行點擊,exe執行后釋放圖片并下載安裝RAT程序。漏洞文檔的文件名列表如下:

程序首先嘗試在下創建名為的文件,創建失敗則調用SHGetFolderPath來獲取CSIDL_APPDATA的路徑。

3.3 本體構建

本體構建過程是在標準威脅情報表達式STIX 格式的基礎上[25],結合獲取信息的實際情況,進行圖的本體構建。對抽取出的知識進行存儲主要是將獲取的知識存入圖數據庫。文中采用neo4j數據庫形成情報知識圖譜,便于知識的增刪改查操作以及數據的可視化展示。

入侵集合是攻擊活動的組合,由單個威脅源發起;特征指標即威脅情報指標,在攻擊過程中產生,常見的IOC 指標通常包括:HASH、URL、域名和IP值;身份歸屬于威脅源,與其一一對應;防御策略是針對攻擊模式所制定的策略,保護組織應對攻擊[26]。

通過對威脅情報的原子構建最終實現圖譜的架構。以攻擊模式和漏洞為例,攻擊模式是組織快速理解攻擊強弱的途徑,從攻擊方法來說,分為DDOS攻擊、web入侵、數據庫入侵、系統入侵和病毒植入。其中,web 入侵有遠程入侵和隱秘通道入侵兩種方式,系統入侵包括系統提權和Webshell;攻擊過程分為遠程漏洞利用、Web暴力破解登錄、本地漏洞利用、XSS攻擊、數據庫注入、欺騙和flood攻擊;漏洞從技術類型來說,劃分為內存破壞類、邏輯錯誤類、輸入驗證類、設計錯誤類和配置錯誤。

3.4 情報推理

Adversarial Tactics,Techniques,and Common Knowledge (ATT&CK)以攻擊者的視角來描述攻擊中各階段用到的技術。通過將已知攻擊者行為轉換為結構化列表,以矩陣和結構化威脅信息表達式(STIX)、指標信息的可信自動化交換(TAXII)來表示攻擊戰術和技術。ATT&CK 在kill chain 模型的基礎上提出,關注攻擊過程的上下文,構建共享的知識模型和框架,解決了分析檢測以IOC 為主的行為標記和攻擊描述缺乏規范化兩大問題。文中提出的抽取模型從多個來源獲取威脅情報數據后,首先根據ATT&CK模型將攻擊者行為轉化為標準化結構,使用知識圖譜清晰描繪出攻擊行為,并且進行威脅情報融合分析,然后進行關聯分析[27],幫助還原攻擊事件的量化指標,通過理解上下文進行態勢感知,為威脅響應團隊提供及時、相關、完整和準確的情報。關聯分析可以應對不斷增加的數據及數據復雜性,常用的關聯分析方法有內部溯源和外部溯源。外部溯源通過給攻擊者描繪畫像信息,如個人信息、攻擊用網絡資產、工具、目標和事件發生位置等進行分析。在APT攻擊中,惡意軟件通常以家族形式演化。

因此,對于追蹤攻擊的來源和了解新的惡意軟件可以使用建立惡意軟件家族圖的方式。當攻擊對象知道某類攻擊名稱,其所屬的類型后,以及類型中所包含的攻擊病毒家族后[28],可以判斷出某一類關系是否合法,從而對于威脅情報進行有效評估。同理,知道第1、2、4、5、6類的關系,能夠推理出第3類關系,從而更能廣泛挖掘出數據之間存在的深度關聯,發掘出潛在的攻擊行為,從而更好地發現威脅情報信息。

4 實驗評估

4.1 數據源

數據來源是結構化信息標準促進組織(oasis)公布的威脅情報數據,將爬取得到的非結構化數據進行簡單的預處理,包括數據清洗、停用詞過濾后,選擇文章的正文內容作為數據集。將報告按照8∶1∶1的比例,從中隨機抽取出74篇進行人工IOC標注,標記出文章中涉及到的惡意IP,URL等,作為測試集。再隨機選出74篇作為驗證集,剩下的部分為訓練集。采用的標注工具為Colabeler,標注過程如圖3所示。

圖3 標注過程

4.2 識別抽取實驗結果

在生成詞向量階段,直接調用Bert模型生成。在訓練神經網絡模型時,采用隨機梯度下降的方法。為了防止出現過擬合的現象,模型引入Dropout正則化處理,設置最大epoch個數為100,經過調參發現當Embedding_dim值為100、Hidden_dim值為129、Dropout_rate為0.5、Batch_size為32、學習率為0.001的情況下最優。訓練過程如圖4所示。

圖4 訓練過程

文中采用常用的NER評價指標值:精確率P(Precision)、召回率R(Recall)和F1(F-measure) 來衡量實驗結果。根據評估標準,模型對比如表2所示。

表2 神經網絡抽取模型改進

當單獨使用正則匹配時,模型的識別率非常低,原因在于非惡意IOC的錯誤識別和非標注格式IOC的漏報,當使用神經網絡BiLSTM時,相比于正則匹配性能有了非常顯著的提升;當對BiLSTM的輸出加以CRF限制時,識別性能也相對提高??梢奀RF 對標簽限制輸出在命名實體識別任務中的必要性。采用Bert模型進行詞向量的生成也提高了模型的識別準確率,Bert和CRF的引入可以看出引入上下文特征在文本信息處理任務上具有非常好的效果; 最后,文中添加了正則匹配,將正則匹配結果進行二次識別。實驗

表3 各抽取模型對比

結果表明,這一方法對模型優化也存在一定幫助。

同時將該法與其他抽取模型對比,文中所使用的模型評分明顯高于基準線。對比結果如表3所示。

4.3 實 現

ATT&CK的應用之一是威脅情報,通過將報告轉化為結構化格式,把依賴IOC轉變為基于TTPs和行為的攻擊檢測。文中首先使用ATT&CK Navigator工具進行分析,Dicovery戰術中使用5種技術,Collection階段使用兩種技術:Automated Collection和Data from Local System,然后通過構建知識圖譜描述攻擊行為和過程。

對APT1 建立知識圖譜進行分析,攻擊手段通常為魚叉攻擊,通過尋找易受攻擊的web 服務器,然后上傳webshell,達到訪問目標內部網絡的目的。攻擊周期包括初步偵察、建立立足點、特權提升、內部偵察和橫向移動5個階段。數據格式為JSON格式,圖譜中包含實體200個,關系133個,關系類別包括uses、mitigates、indicates、targets和attributed_to。將威脅情報對象和對應的值輸入查詢系統時,可以根據cypher語句從圖數據中查詢到相應的點及關系,從而返回頁面中。本次分析采用標準的STIX格式數據,需要創建本體及原子本體。其中,圖譜中共有7類本體,分別為入侵集合、威脅源、特征指標、惡意代碼、身份、攻擊工具和攻擊模式,圖譜中本體關系如圖5所示。

圖5 本體關系

各個本體下的原子本體是實例化的實體,是本體中最小的不可分割的概念。具體的數據即為圖譜中的一個實體。依據本體關系建立實體關聯,從圖譜中任一實體出發,可根據關系查詢出與之相關的所有信息。如圖6所示,通過特征指標indicator--8da68996-f175-4ae0-bd74-aad4913873b8指示惡意軟件malware--4de25c38-5826-4ee7-b84d-878064de87ad具有攻擊性,其威脅源來自于campaign--752c225d-d6f6-4456-9130-d9580fd4007b,通過分析協助用戶快速找到威脅源,從而有效處置。

圖6 APT1實體關系圖譜

從圖6中也可以看出,根據邊顏色的不同進行實體間關系的劃分[29],更加直觀地了解攻擊事件中本體及原子本體以及其之間的關系。通過知識圖譜的情報搜索,可以更加充分挖掘數據之間潛在關系,對于威脅情報的精準可視化具有重要意義。

4.4 工程應用

4.4.1 數據可視化

可視化是知識圖的一個典型應用。對于各種類型的威脅情報,可以使用模式匹配的原則來查詢特定的節點和關系并可視化顯示。例如,與攻擊事件相關的所有節點的信息、相同攻擊模式的所有節點等,可以幫助專業人員進行推理分析。

4.4.2 知識推理

這部分使用了知識圖的推理函數。雖然neo4j的存儲方法不如RDF穩健,具有較強的語義能力,但基于弱語義的推理仍被廣泛應用。知識推理可以被理解為基于一般的規則和結論來獲取新的知識。它應用于威脅情報領域,可以推斷出各種潛在的威脅。例如,當多個攻擊者在同一攻擊模式下攻擊某一特定公司時,可以假設該公司對這種攻擊模式的防御能力較差。還可以推斷出在這種攻擊模式下的其他攻擊者也受到了威脅。此外,它還包含了一些基于知識推理的錯誤檢查和分類等功能。

5 結束語

文中介紹了知識圖譜的相關構建技術,包括數據獲取、識別抽取、本體構建及情報推理。使用了一種基于Bert+BiLSTM+CRF的命名實體識別模型,加以正則匹配機制進行輸出限制,用于從文本信息中識別抽取IOC信息,并輸出為STIX標準化格式數據的方法。Bert模型和條件隨機場的引入充分利用了上下文特征,從而獲得了比前人更好的性能,提高了IOC抽取的準確度。實驗結果對比表明,文中模型相比于其他模型在識別準確度上有提升,在中文數據集上有較為良好的表現。最后提出一個KGCP系統,該系統使用ATT&CK技術對威脅情報進行格式轉換完成情報推理?;诒倔w建立了本體與原子本體知識圖譜,通過知識圖譜關聯分析數據之間潛在關聯,發現具有相似性和相關性的威脅,完成攻擊行為的查詢與分析預測。

未來,將首先構建一個平臺,該平臺能夠收集不同數據格式的威脅情報并對其進行關聯;然后引入相似度算法進行相似性分析,來表示不同粒度級別威脅之間的關系,將相似性分析整合到平臺中,設計出高效的情報檢索,提高組織的防御能力。云托管的應用程序容易受到 APT 攻擊、Sybil 攻擊和 DDOS 攻擊,針對這一攻擊特點,需要提出新的有針對性的威脅情報共享平臺,可以快速檢測出混淆的數據以防御上述攻擊,提高 CTI 共享平臺的有效性和可靠性。

猜你喜歡
情報本體威脅
Abstracts and Key Words
情報
情報
情報
人類的威脅
受到威脅的生命
面對孩子的“威脅”,我們要會說“不”
《我應該感到自豪才對》的本體性教學內容及啟示
交接情報
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合