?

DataCon:面向安全研究的多領域大規模競賽開放數據

2024-01-26 00:36鄭曉峰段海新陳震宇應凌云何直澤湯舒俊鄭恩南劉保君陸超逸沈凱文林子翔
信息安全學報 2024年1期
關鍵詞:黑產域名流量

鄭曉峰,段海新, 陳震宇, 應凌云, 何直澤, 湯舒俊, 鄭恩南, 劉保君, 陸超逸, 沈凱文, 張 甲, 陳 卓, 林子翔

DataCon:面向安全研究的多領域大規模競賽開放數據

鄭曉峰1,2,段海新1,2, 陳震宇2, 應凌云2, 何直澤2, 湯舒俊2, 鄭恩南2, 劉保君1, 陸超逸1, 沈凱文1, 張 甲1, 陳 卓2, 林子翔2

1清華大學網絡科學與網絡空間研究院 北京 中國 1000842奇安信科技集團 北京 中國 100088

網絡安全數據是開展網絡安全研究、教學的重要基礎資源,尤其基于實戰場景下的安全數據更是科研教學成果更符合安全實踐的保障。然而, 由于網絡安全的技術變化快、細分領域多、數據敏感等原因, 尋找合適的網絡安全數據一直是研究者們進行科研和老師開展實踐教學時關注的重要問題。本文總結并分析了多個領域的經典公開安全數據集, 發現其在研究應用時存在數據舊、規模小、危害大等不足; 克服安全數據領域選擇、大規模實戰數據獲取、安全隱私開放等困難, 構造了更符合當前科研需求DataCon安全數據集。數據集大規模覆蓋DNS、惡意軟件、加密惡意流量、僵尸網絡、網絡黑產等多個領域, 且均來自實戰化場景,并基于DataCon競賽平臺將其開放給參賽者和科研人員。目前, DataCon數據集涵蓋了已成功舉辦四屆的“DataCon大數據安全分析大賽”的全部數據, 大賽被國家教育部評為優秀案例, 并進入多所高校研究生加分名單, 數據內容也一直隨著真實網絡環境中攻防場景的變化而持續更新。目前, DataCon數據集涵蓋了已成功舉辦四屆的“DataCon大數據安全分析大賽”的全部數據, 大賽被國家教育部評為優秀案例, 并進入多所高校研究生加分名單, 數據內容也一直隨著真實網絡環境中攻防場景的變化而持續更新。數據集持續收到科研人員、學術的數據使用申請, 支撐了多篇學術論文的發表, 充分說明了其有效性和可用性。我們希望DataCon數據及競賽能夠對網絡安全領域產、學、研結合有所幫助和促進。

DataCon; 安全研究; 開放數據; 競賽

1 引言

近幾年來, 數據開放共享逐漸成為一種趨勢, 極大促進了相關領域研究、應用的發展。然而, 網絡安全行業的數據與用戶的安全和隱私非常密切, 使得產業界數據開放處于封閉、滯后狀態。雖然有研究人員通過主動采集、仿真生成等方式獲得并公開了多個經典的安全數據集, 為安全研究的進步做出了諸多貢獻, 但這些公開數據依舊難以滿足當前安全研究的需求。將產業界的真實安全數據通過合理方式開放, 能夠加強產、學、研結合, 有力地促進技術提升。

作為國內首個以大數據安全分析為目標的開放賽事平臺, DataCon[1]克服數據獲取、開放等方面的諸多挑戰構建并開放了多個領域的大規模、高價值、高真實DataCon安全數據集, 用于支持實戰化對抗場景分析比賽以及各類型的科研、教學。在2019-2022年成功舉辦四屆“DataCon大數據安全分析競賽”并持續更新DataCon安全數據集, 競賽和數據支撐產生了多個有價值的工作。

本文其余章節組織架構如下: 第2節介紹了現有安全數據集狀況; 第3節總結了構建DataCon安全數據集面臨的挑戰及其包含的五個應用領域安全數據狀況; 第4節分別對DataCon競賽平臺及數據集的安全開放保障進行了說明; 第5節基于實際的開放賽事對數據集的分析使用情況進行說明; 最后第6節總結全文工作并展望下一步規劃。

2 現有安全數據集現狀

數據集是進行科學研究的重要資源, 其質量對研究成果有著重要的影響。本節將對各個安全領域中較為經典的公開安全數據集進行介紹, 并說明其支持當前科研的不足之處。

2.1 經典公開安全數據集

KDD CUP 99數據集[2]及其衍生數據集NSL-KDD[3]被廣泛應用于入侵檢測領域科研論文的相關實驗[4-11]。該數據集是1999年KDD CUP的競賽數據, 基于DRARPA 98數據[12](即美國國防部高級研究規劃署在麻省理工學院林肯實驗室實施入侵檢測評估項目生成的高仿真TCPdump網絡連接和系統審計數據)進行一定的加工和預處理后獲得, 以“連接”為基本記錄單位?!斑B接”是在一個固定的時間間隔內, 源IP到目標從開始到結束的TCP數據包。數據集的時間跨度為9周, 其中7周約500萬條記錄作為訓練數據和2周約200萬條記錄作為測試數據。每條“連接”記錄都有41個固定的特征屬性; 此外, 訓練數據有1種正常的標識類型 normal 和 22種攻擊類型(如表1所示), 測試數據則包含更具有現實性未知的攻擊類型。

表1 KDD CUP 99數據集

theZoo[13]是在GitHub獲得6200多個star的惡意軟件分析開源項目。該項目由Yuval tisf Nativ于2014年1月創建, 目前由Shahak Shalev進行維護, 旨在通過安全可訪問的形式提供各個版本惡意軟件的開放分析使用。目前為止, 該項目包含237個二進制形式的惡意軟件樣本, 80個疑似原始惡意軟件源代碼, 6個可逆向的惡意軟件源代碼。每個惡意軟件目錄包含四個文件: 加密ZIP存檔的惡意軟件文件、加密惡意軟件的SHA256編碼、加密惡意軟件的MD5編碼和存檔密碼。除此之外, DAS MALWERK[14]提供了Robert Svensson從互聯網收集的600多個可執行惡意軟件; Contagio[15]是Mil收集、公開的30多個各類型可執行惡意軟件樣本。

CTU-13-數據集[16]是2011年捷克CTU(Czech Technical University in Prague)大學在MCFP(The Malware Capture Facility Project)中捕獲的網絡流量數據, 包括僵尸網絡流量、正常流量、背景流量。該數據集包含13個不同僵尸網絡樣本的捕獲, 每種情況都是通過長期執行一種特定的惡意軟件并在執行期間持續監測、采集相關流量數據。每一類僵尸網絡數據原始流量都存儲在對應的pcap文件, 預處理后的所有流量數據(包括標簽和argus生成的雙向netflow文件)存儲在biargus文件。

Alex Top 100萬域名數據[17]和開放惡意域名數據(如奇安信威脅情報中心IOC域名[18]、ZeusDGA[19]等)常常被用于可疑域名檢測分析、入侵檢測、web應用防護等領域的研究, 以開放惡意域名作為黑樣本, Alexa Top除惡意域名外的域名作為白樣本。Alex Top 100萬域名數據有近100萬條數據記錄, 每條記錄包括域名及其在某時間的靜態排名; 奇安信威脅情報中心IOC域名包含已證實APT惡意域名及其所屬組織等信息。

UCI機器學習庫提供了兩個釣魚網站數據集: Mohammad數據集[20]和Abdelhamid數據集[21]。Mohammad數據集在2015年發布, 包含有2456個釣魚網站實例, 每個實例有30個不同屬性, 目前已被訪問15.1萬次。Abdelhamid數據集在2016年發布, 通過不同來源收集了1353個網站數據, 其中包含548個合法網站、702個釣魚URL和103個可疑URL,

目前已被訪問8.6萬次。此外, SofaSofa釣魚欺詐網站識別數據集[22]公開了通過爬蟲獲取的10086個網站訓練樣本和7000個預測樣本, 每條樣本記錄都包含有18個特征變量。

2.2 現有數據集的不足

上述經典公開安全數據集對于網絡安全研究起到了很大的促進和幫助作用, 然而, 它們已經難以滿足現在更實時、全面、無危害的安全研究需求。本節將從數據陳舊、有效規模小、危害大三個方面對此論證。

2.2.1 數據陳舊

前述大多數據集的生產與采集時間距今已有多年。近幾十年來, 網絡技術飛速發展, 如果數據集的產生時間較早則根本無法有效反映當前的網絡安全狀況, 進而導致基于此的安全研究成果與實際情況偏差較大。

章節2.1中共提到13個數據集, 其中8個為單次發布, 5個為持續更新。8個單次發布數據集的已產生時間分布如圖1所示, 25%的數據集產生時間在20年前, 50%的數據集已產生5~10年, 僅有1個產生1年的數據集還是時效性極高的釣魚網站數據(生存周期通常以天為單位)。顯然, 這些較為老舊的數據已無法準確地反映對應領域的當前狀況。

2.2.2 有效規模小

現有數據集的有效規模較小, 主要包括數據集的整體規模小和數據集的有效數據少兩大類。如果分析的數據規模遠遠小于實戰場景下的海量數據規模, 則很可能得出較為片面的結果和認知。

數據規模小, 是指該數據集規模遠遠小于該類型數據的體量。例如, 2個UCI釣魚網站數據集量級均為千、SofaSofa釣魚欺詐網站數據量級為萬, 遠遠小于每日新增的50萬釣魚網站數量[23]; theZoo、DAS MALWERK、Contagio等惡意軟件樣本的數據量級更是僅在數十到數百之間。

圖1 現有數據集的產生時間

Figure 1 The generate time of exist data set

數據集的有效數據少, 是指數據集中包含大量的冗余數據, 有效信息只占有較低的比例。例如KDD99數據集和CTU-13-數據集中的原始流量中包含大量的冗余數據, 甚至有人針對冗余數據進行分析、優化和提煉[3,7]。

2.2.3 危害性大

危害性主要存在于惡意軟件樣本數據?,F有的公開惡意軟件樣本數據通常包含可執行的惡意軟件源代碼、文件, 其中不乏已造成重大損失和危害的惡意軟件。雖然發布者在進行開放共享時通常會通過免責聲明、使用說明的方式建議使用者只將惡意軟件用于研究并在運行時將其限制在未聯網環境或虛擬機。但是, 惡意軟件被使用者獲取后的實際用途并不受數據發布者控制。免責申明、使用說明只能代表數據發布者的想法, 不能限制好奇使用者將獲取的惡意軟件樣本非正常使用, 對自身或它人造成危害、損失; 甚至, 惡意使用者可以將惡意軟件開放渠道作為工具中心獲取大量的攻擊工具來提升其實施各類型惡意行為的能力。

3 DataCon安全數據集

針對安全研究、競賽分析的實際需求和現有數據集在使用中的不足, DataCon安全競賽平臺緊緊圍繞幫助培養大數據安全人才的目標, 克服各種挑戰, 構建了更符合當前需求場景的高實戰、多領域大規模覆蓋的DataCon安全數據集。

3.1 安全數據集構建面臨的挑戰

DataCon安全數據集構建主要面臨著選擇獲取數據和數據安全開放兩個方面的挑戰。

3.1.1 數據的選擇和獲取

選擇哪些細分領域的安全數據來支持安全研究和競賽分析是需要面對的第一個問題。針對該問題, DataCon委員會整合奇安信科技集團和清華大學資源, 協調多個業務、研究部門的業務技術專家, 從防御者、研究者的視角精挑細選確定DataCon安全數據集的五個領域, 同時支撐競賽平臺大數據安全分析比賽的五個賽道。五個領域分別是: DNS數據、惡意軟件數據、加密惡意流量數據、僵尸網絡數據、網絡黑產數據。

確定數據集領域后要解決的第二個問題是如何大規模獲取這些細分安全領域的高實戰原始數據。經過協調多個業務、研究部門的實戰場景資源, 在DNS方向每年獲取真實DNS請求信息; 在惡意軟件方向, 持續捕獲現網惡意軟件; 加密惡意流量數據方向, 投入奇安信技術研究院天穹沙箱運行每年最新采集的惡意和正常軟件并持續采集篩選其產生的流量; 僵尸網絡方向, 同樣通過部署公網開放蜜罐進行數據采集; 網絡黑產方向, 投入奇安信采集的惡意網站域名、鏈接與正常網站域名、鏈接數據。通過上述各方向的持續投入和采集, 獲得DataCon數據集的原始數據。

3.1.2 數據開放使用的挑戰

原始安全數據直接開放使用會面臨多方面的風險, 如用戶隱私泄露風險、惡意軟件傳播風險等。原始安全數據往往包含用戶或第三方的各類型行為記錄隱私和身份標識信息, 將其直接開放, 不僅帶來用戶隱私信息泄露的風險, 而且違反《個人信息保護法》等相關的法律法規。惡意軟件樣本通常具備一定破壞性, 不做限制直接開放傳播, 既可能被使用者惡意使用或不當使用危害它人計算機信息系統, 又可能違反《刑法》、《治安管理處罰法》、《計算機病毒防治管理辦法》等相關法律法規中關于涉嫌破壞計算機信息系統的內容。

通過隱私保護等措施降低風險的同時如何確保數據可用性更提升了數據開放的隱私保護難度。大數據分析與原始數據特征息息相關, 一旦脫敏過程中破壞數據特征將會嚴重影響大數據分析的結果, 從而無法滿足數據開放支撐研究和競賽分析的初衷。因此, 在對前述情況進行脫敏處理時, 需要盡可能保護數據可用性, 不影響數據集的研究、分析使用效果。詳細脫敏工作介紹見第4.2章內容。

3.2 數據集狀況

接下來將以2020年數據集為例對5個細分領域的DataCon數據進行詳細介紹。

3.2.1 DNS數據

DataCon DNS數據集[24]是經過處理的部分2020年3~5月真實DNS請求信息, 包括三個不同的子數據集。DNS數據集1是來自1000個惡意域名以及約20000個請求量與之相似的干擾域名的DNS請求信息, 信息內容具體包含客戶端IP信息、域名、解析結果、相關域名whois信息等。DNS數據集2分為訓練集和測試集, 訓練集包含約2000個有標簽黑白域名的DNS請求信息, 測試集包含10000多個無標簽黑白域名的DNS請求信息, 信息內容具體包含客戶端IP信息、域名、解析結果等。DNS數據集3 是來自約10000個無標簽黑白域名的DNS請求信息, 信息內容具體包含客戶端IP信息、域名、解析結果、TTL等。不同數據子集各自存放在一個文件目錄下, 目錄中包含的文件名、內容解釋、數據量如表2所示, 各文件的字段介紹如表3所示。

3.2.2 惡意軟件數據

DataCon惡意軟件數據集[25]源自每天從現網捕獲的惡意代碼, 分為訓練集和測試集兩部分, 訓練集中包含6000個有標記的惡意軟件樣本文件(2000個黑樣本為明確的挖礦型惡意代碼, 4000個白樣本為明確的非挖礦型惡意代碼), 測試集包含6000個未標記的待檢測惡意代碼樣本文件。單個惡意代碼樣本的大小主要在20KB至10MB之間, 樣本的總大小約為12GB。

表2 DataCon_DNS數據內容及規模概況

表3 DataCon_DNS數據字段解釋

為確保樣本多樣性, 基于百萬個樣本的惡意樣本集進行相似性分析, 過濾掉相似樣本后, 最終獲得全部12000個樣本。

此外, 為避免樣本運行, 樣本PE結構中的MZ頭、PE頭、導入導出表等區域均已抹去, 雖然無法動態分析, 但其代碼指令特征依然存在。

3.2.3 加密惡意流量數據

DataCon加密惡意流量數據集[26]源自于2020年2月~6月收集的惡意軟件與正常軟件, 經奇安信技術研究院天穹沙箱運行并采集其產生的流量篩選生成。本數據集定義的惡意流量為惡意軟件(均為exe類型)產生的加密流量, 白流量為正常軟件(均為exe類型)產生的加密流量。流量內容為443端口產生的TLS/SSL數據包。

數據集包括訓練集和測試集, 訓練集規模為3000個有標注的pcap文件(其中黑樣本、白樣本數量均為1500), 測試集規模為2000個待檢測pcap文件, 每個pcap文件都是一個惡意軟件在一個客戶端IP產生的流量數據, 不同pacp文件代表不同惡意軟件產生的惡意流量。訓練集和測試集的黑樣本分別為2020年2月~2020年5月和2020年6月捕獲的惡意軟件加密流量, 所有白樣本均為2020年捕獲的正常軟件加密流量。

3.2.4 僵尸網絡數據

DataCon僵尸網絡數據集[28]包括兩個子數據集, 分別是相同獲取來源僵尸網絡樣本文件數據集和HTTP蜜罐數據集。

僵尸網絡樣本文件數據集, 來自部分公網開放蜜罐捕獲到的僵尸網絡文件投遞行為。分兩個部分, 第一部分為僵尸網絡文件樣本, 第二部分為樣本間的來源關系, 即被同一個IP投遞且下發地址為同一個IP, 這樣的樣本大概率會有代碼上的相似特性, 部分可以確定為同一套源碼編譯。僵尸網絡樣本文件數據均為32位ELF。樣本文件“mips”為MIPS大端可執行文件, 樣本文件“x86”為Intel IA-32小端可執行文件。每個類型各512個文件, 且對于每個文件而言, 都有另一個文件集中的一個文件和它“同源”(即從同一套源碼編譯而來或在同一套源碼之上略作改動編譯而來)。

HTTP蜜罐數據集來自部分公網開放蜜罐捕獲的HTTP請求流量, 數據采集的時間范圍是2020年5月。存儲形式為一個2.53GB的honeypot.json文件, 包含2745694行記錄, 文每一行為一個JSON字符串, 代表一條蜜罐日志, 即針對蜜罐的一次HTTP請求, 詳細字段解釋如表4所示:

表4 蜜罐數據字段介紹

3.2.5 網絡黑產數據

DataCon網絡黑產數據集[28]源自于奇安信在2020年7月下旬~8月上旬期間收集的惡意網站域名、鏈接與正常網站域名、鏈接數據。本數據集共分為12個數據子集, 每個數據子集包含一個.txt格式的域名、URL混合列表文件以及一個csv格式的域名備案信息文件。域名備案信息包括8個特征項: 域名、網站備案號、位名稱、單位性質、審核時間、網站名稱、網站地址、詳細地址。本數據集及各子集的數據規模詳情如所示。

表5 DataCon 網絡黑產數據集狀況

由于網絡黑產數據是完全實戰化場景, 數據集中網站網絡情況以及運營情況變化無法預測, 導致同一域名或同一URL在不同時間所展示的內容不一樣, 所以本數據集不提供具體的黑產分類信息。本數據集涉及的黑產類別包含且不限于如下類別: 涉賭、涉黃、涉毒、涉槍、涉詐、傳銷、接碼平臺、賬號買賣、個人信息買賣、黑客相關、發卡平臺、空包、卡池貓池、網賺、游戲私服、流量劫持、政府仿冒、假證買賣、支付平臺、跑分平臺、IDC服務商、CDN服務商等, 其中還包含大量的正規網站劫持事件。部分網絡黑產類別定義如表6所示。

表6 部分網絡黑產類別定義

3.3 數據集優勢

DataCon數據集應用于安全研究和比賽分析場景具有多方面的優勢, 如高實戰性、多領域大規模覆蓋、脫敏開放(低危害性)等。

3.3.1 高實戰性

DataCon數據集來源于實戰、服務于實戰, 為相關研究和分析提供了應用場景和實施方式的案例支撐。其高實戰性, 主要通過三個方面來體現: 來源真實、數據新鮮、熱點業務。

來源真實, 即數據集的所有原始數據都是從現網的實戰業務環境中采集和獲取, 而不是通過構建仿真系統生成。仿真系統通常只能考慮到真實環境中的一部分影響要素, 生成仿真數據和現網抓取數據相比存在一定偏差?;诜抡鏀祿M行研究和分析, 其發現成果必然會和實際狀況有所偏差, 實戰場景應用效果同樣會受到影響。直接使用源自于現網的真實數據可以有效的避免這一問題, 提升研究和分析效果。

數據新鮮, 即數據集來自于最近時間段(每年競賽中都會開放最新數據), 可以較好地反映相關領域的當前狀況。隨著技術不斷地更新、升級和迭代, 各個領域產生的數據及其特征同樣會隨之變化。采集時間較久的數據, 其數據特征與當前實際狀況存在偏差, 研究和分析結果同樣會受到影響從而與實際狀況產生偏差?;谳^為新鮮的數據進行研究和分析, 能夠更好地反映該領域的當前狀況。

熱點業務, 數據集的數據采集領域都是較為熱點的領域, 受到廣大安全從業者和攻擊者關注?;跓狳c業務的數據集進行研究, 能在更大的范圍內影響當前網絡空間安全態勢。

3.3.2 多領域大規模覆蓋

DataCon數據集涉及領域范圍全面、數據有效規模大, 實現了安全數據的多領域大規模覆蓋。

如章節3.2所述, DataCon數據集數據涉及多個安全領域, 囊括了DNS數據、惡意軟件數據、加密惡意流量數據、僵尸網絡數據、網絡黑產數據五個領域方向的數據。DNS是互聯網基礎協議之一, 一直是互聯網通信的重要研究內容, 以此數據為基礎能夠從主流防御者的角度進行分析考察。惡意軟件同樣是非常傳統的安全領域, 各類木馬、病毒、勒索軟件、挖礦軟件等感染了越來越多的互聯網用戶并造成大量危害, 相關領域的研究分析能幫助促進惡意軟件的快速檢測發現。加密惡意流量數據則是加密通信前提下對惡意軟件數據進行分析檢測, TLS等部署成本越來越低, 越來越多的惡意軟件使用加密作為主要傳輸手段, 相關流量監測分析成為惡意軟件發現的新戰場。僵尸網絡一直是進行DDoS等網絡攻擊事件的基礎, DDoS防御工作會長期與僵尸網絡的研究和監控緊密相關。網絡黑產受巨大利益驅使, 不僅搭建各類黑灰產網站, 還為了引流、提升搜索引擎排名攻擊正規網站, 對黑產網站進行分析研究, 才能夠達成知己知彼知威脅并實施有效的黑產發現、打擊。

上述各個領域數據子集的規模在對應領域公開數據集中都處于領先地位, 足以支撐相關的大數據安全分析。DNS數據集, 涉及約4萬個域名的3200多萬條各類型記錄信息, 現有經典公開數據集中從未出現過惡意軟件數據包含6000個惡意軟件樣本, 要遠遠超過現有公開數據集中的數百個。加密惡意流量數據包含 5000個有標注的pcap文件。僵尸網絡數據則包含2745694行HTTP蜜罐數據以及1024個存在同源關系的僵尸網絡樣本。網絡黑產數據包括 273萬域名URL信息和6.4萬域名備案信息。

3.3.3 脫敏開放

DataCon數據集在開放使用之前會根據領域實際情況對各個數據子集進行相關的脫敏操作。典型脫敏情況如下所示: 數據包含產生該數據的用戶標識符信息, 則對其身份信息進行隱私保護處理; 數據包含大量的第三方標識符信息, 同樣需要對其進行隱私保護處理; 軟件存在危害性, 則需要脫敏破壞其可執行性。在對上述情況進行脫敏處理時, 還需要盡可能保護數據可用性, 不影響數據集整體的研究、分析使用。詳細脫敏工作介紹見第4.2章內容。

4 競賽平臺及數據的安全開放

DataCon安全競賽平臺, 是國內首個以大數據安全分析為目標的開放賽事平臺, 為多種安全分析競賽提供平臺支撐、相關數據的安全開放及安全交流社區生態。

4.1 競賽平臺

為確保競賽公平公正, 競賽平臺在注冊報名、賽題發布、答案提交等基礎功能外, 還提供了具備彈性可擴展和數據保護能力的虛擬化執行環境。

競賽過程中, 平臺將根據賽事方向確定虛擬化環境配置及測試代碼流程和功能的樣例數據, 并根據各方向參與人數同方向所有參賽選手各自提供相同配置的虛擬化環境。選手可在運行環境中自行配置第三方庫等依賴環境、調試競賽代碼, 并在持久化目錄下存放環境配置腳本、競賽程序代碼, 以免因為運行環境重置導致數據丟失。

競賽算法運行檢測時, 為避免解題方案執行受到外部因素影響或惡意代碼對外部環境造成影響, 虛擬環境會斷開網絡連接。評委根據代碼執行結果及過程進行最終評判, 能夠對選手的解題思路和方法進行充分考察。

4.2 數據安全開放

依托DataCon開放競賽平臺, 各項競賽能向學術界提供真實的脫敏數據資源, 開放協作, 在以產學研深度融合推進安全領域的實戰性研究成果轉化, 為網絡空間安全的發展創造更大價值。

4.2.1 身份標識符隱私保護

DataCon安全數據集中典型的身份標識符/準標識符信息主要是IP地址、MAC地址、域名信息等。源IP地址、MAC地址能夠對產生信息的用戶身份信息進行唯一標識, 進而將其他數據字段及其中隱含的隱私信息與用戶身份關聯泄露具體用戶的隱私。目標IP地址、域名信息則能夠將各項信息與確切的信息目標流向相互關聯, 從而泄露目標IP、域名的相關內容隱私。針對上述問題, DataCon數據集結合數據與應用場景相關狀況, 采用多種措施對身份標識字段進行脫敏處理, 從而實現身份標識符隱私保護。

加密惡意流量數據中, 客戶端IP的主要作用是對加密惡意流量產生源進行標識, 因此對其處理方式是將原始IP映射為內網網段IP, 即完全保留了加密惡意流量產生源的標識區分能力, 又保護了原有的加密惡意流量產生源IP信息。

DNS數據中, 域名即具備一定的特征信息, 又是訪問流量、解析日志中不同記錄的目標身份標識。對其進行隱私保護處理時, 充分考慮到了域名自身的特征信息用于進一步分析的可能, 將每個域名映射為一個域名代碼和相應的字符串特征說明, 充分保留了原始域名的字母、數字、詞語、特殊符號、頂級域名、長度等信息。隱私保護處理規則如下: 頂級域名和特殊符號保持不變, a表示字母、0表示數字、[aaa]表示aaa為一個詞語。如: 原始域名abchello- 12.com 隱私保護后的特征碼為 aaa[aaaaa]-00.com。此外, DNS數據中IP信息(客戶端IP和域名解析IP地址)既具備特征信息, 又是區分不同流量來源、解析目標的標識符, 此外還是關聯IPwhois信息庫的唯一標識。為此, 在對其進隱私保護處理時, 將前3段映射為加密字符串僅保留第4段, 并提供加密IP的國家、省、市、經緯度、運營商等信息。在不泄露用戶隱私(IP訪問記錄)的基礎上保留了IP的唯一標識能力和第四段分布特征, 并滿足了關聯IP whois的基本查詢需求。

此外, 根據數據領域的實際情況, 還進行IP加密、選擇特定端口流量等多樣性的數據隱私保護措施。

4.2.2 軟件脫敏處理

惡意軟件或僵尸網絡樣本文件的原始文件通常具備危害性和可執行性, 不經過處理即公開發布, 可能被惡意使用者當作惡意危害他人的攻擊工具, 或被好奇的使用者使用無意中造成自身或他人的損失。針對上述問題, DataCon數據集針對不同的樣本數據和應用場景, 對相關軟件樣本進行脫敏處理, 從而實現軟件危害性脫敏。

惡意軟件領域會提供大量可移植可執行文件(Portable Executable, PE)文件樣本以供研究分析和比賽使用。PE文件是目前Windows平臺上的主流可執行文件格式, 包括可執行程序EXE文件、動態鏈接庫DLL文件等, 將其安全開放需要破壞可執行性并保留研究價值。分析PE文件格式可知, MS-DOS頭、PE頭、導入導出表等區域會涉及到樣本的運行。例如: MS-DOS頭包含MZ頭信息、PE頭偏移地址等信息且能夠調用PE頭; PE頭包含PE文件標識、標準頭、擴展頭等信息; 導入表(IMAGE_DIRECTORY_ ENTRY_IMPORT)會提供PE文件加載時依賴的DLL及填充所需函數的地址; 導入地址表(IMAGE_ DIRECTORY_ENTRY_IAT)則是填充真正的函數地址。清洗上述區域信息后, PE樣本文件雖然無法運行進行動態分析, 但其惡意行為的指令特征依然存在, 不影響各項靜態分析的效果。

僵尸網絡方向用以研究分析和比賽使用的開放數據是ELF文件樣本。ELF文件是Linux平臺上的主流可執行文件格式, 其文件段(Section)信息一般包括代碼段(.text)、只讀數據段(.rodata)、已初始化全局數據段(.data)、未初始化全局數據段(.bss)、符號表()等。結合僵尸網絡樣本的分析考察內容, 去除了樣本中的只讀數據段等內容, 保留了代碼段信息, 處理后數據依舊不影響不同僵尸網絡樣本同源分析等場景分析使用。

5 基于開放賽事的數據集分析

基于DataCon競賽平臺和安全數據集, 奇安信集團、清華大學和螞蟻集團聯合主辦了國內首個以大數據安全分析為目標的大型比賽“DataCon大數據安全分析競賽”。當前已成功舉辦四屆(2019—2022)比賽, 接來下將以2020年賽事為例, 從比賽結果、分析方法機理兩個方面來對數據的有效性、價值進行說明。

5.1 賽事情況及結果分析

DataCon2020大數據安全分析競賽基于安全數據集的細分數據領域, 設置了五大安全賽道來解決不同場景下的安全問題。具體賽題包括: DNS惡意域名分析和惡意代碼分析、加密惡意流量檢測、網絡黑產分析以及僵尸網絡分析等重要的攻防實戰場景。各個賽道的題目和規則不盡相同, 但都旨在選手能夠自由發揮、充分擴展解題思路。此外, 還通過埋入特殊采分點、代碼檢查等多種反作弊方式來確保比賽公平性。

DNS域名方向包括6道賽題, 最終得分由各賽題得分以不同權重累加計算。如圖2上圖展示了40多支提交答案參賽戰隊的賽題得分狀況色度圖, 戰隊與賽題對應網格顏色越深代表該戰隊在該賽題得分越高; 下圖展示了總成績得分最高的20只隊伍得分情況, 在多個得分區間存在激烈的競爭。成績分布在不同色度(區間)說明賽題難度和評分具備一定合理性; 不同隊伍能取得相近成績(相近色度、分數區間)說明賽題數據能夠有效支撐不同解題方法。

惡意軟件方向采用淘汰制, 如圖3所示, 資格賽共37名隊伍提交有效答案, 30支隊伍獲得晉級資格; 經過初賽和附加賽的篩選, 前14支隊伍進入決賽; 決賽中多支隊伍使用各自方法成功解決問題。

圖2 DNS域名方向-各賽題不同戰隊得分色度圖及決賽排名前20戰隊最終得分

Figure 2 DNS domain direction-the score chromaticitydiagram of each question and the final score of top 20

該方向各個階段都有多支隊伍獲得較好成績, 同樣說明該方向數據集能夠在安全條件下有效支持不同的分析方法。

加密惡意流量檢測方向同樣采取淘汰制, 參賽隊伍資格賽及決賽得分狀況如圖4所示, 左圖資格賽中多支晉級隊伍的成績聚集在100分、85分、70分三個分數段; 右圖決賽中的各隊伍得分主要分布在60~85區間。不同隊伍的分數分布狀況說明該方向數據即使經過處理同樣能夠支持多個采分點的評估設置及不同解題方法的應用。

僵尸網絡方向是由背景知識題和不同難度的三道賽題(賽題3包括主觀分和客觀分)組成。圖5左圖展示了參賽隊伍的各題得分狀況色度圖, 共有32支隊伍成功提交答案, 由背景知識題得分狀況可知既有相關背景的隊伍也有無背景知識的隊伍, 雖然有背景知識的隊伍通常成績更好, 但也有一些無背景知識的隊伍同樣取得較好的成績, 這也說明了該方向數據的隱私保護處理并沒有受到背景知識的局限, 能夠支持新的分析思路和方法。

網絡黑產方向題目為完全實戰化場景, 目標網站網絡情況以及運營情況變化無法預測, 導致同一域名或同一URL不同選手在不同時間所展示的內容不一樣, 所以該題由評委老師結合選手的分類結果及writeup進行綜合評分, 最終得分狀況如圖6所示, 不同隊伍都產出了有效的黑產分析結果, 同樣論證了數據的真實價值。

圖3 惡意軟件方向-各階段成績狀況(縱軸為分數, 橫軸為戰隊成績排名)

Figure 3 Malware direction-the results of each stage (the vertical axis is the score, the horizontal axis is ranking)

圖4 加密惡意流量方向-資格賽和最終成績分布圖

Figure 4 Encrypted malicious traffic- Direction-distribution of qualification and final score

圖5 僵尸網絡方向-各題得分色度圖及決賽得分狀況

Figure 5 Botnet direction-the score chromaticity diagram of each question and the final score

圖6 網絡黑產方向最終成績

Figure 6 Underground industry direction- the final result

5.2 優秀分析方法及數據有效性

競賽的各個賽道方向均產出了優秀的分析實踐, 對DataCon平臺及安全數據集在安全研究方面的實戰價值提供了有力的結果支撐。因篇幅有限, 此處僅結合部分優秀分析實踐對數據有效性進行說明介紹。

DNS方向, 結合廣州大學IStar戰隊分析惡意域名家族的解題思路[29]對數據有效性進行說明。該解題過程為將問題定位為類別嚴重不平衡的多分類問題題進行數據預處理、特征工程和建模分析, 過程中涉及特征包括域名字符串特征、域名解析IP數量、域名解析IP分布、域名解析IP變化頻度等。DNS脫敏數據特征如章節4.2.1所述, 域名脫敏保留了原始域名的字母、數字、詞語、特殊符號、頂級域名、長度等信息; IP脫敏保留了唯一標識能力和第四段特征、IPwhois信息。比對分析可知脫敏數據直接滿足分析過程所需的3項數據特征, 僅影響IP分布特征, 但IP分布特征可通過附加的IP whois運營商信息部分替代。綜上所述, DNS數據集在域名分析領域具有接近原始數據的分析價值且不會泄露域名IP的隱私關系。

惡意軟件分析方向, 結合中科院信工所IIE- AntiMiner戰隊的分析思路[30]對數據有效性進行說明。分析思路為: 首先根據黑樣本(挖礦軟件)的行為特性初步確定待關注特征, 然后根據不同特征采用灰度圖、直方圖、靜態特征模型等分別進行處理和驗證, 最后基于不同模型效果和特點建立更穩定的融合模型(圖7)。分析過程中主要使用PE文件的二進制字節、調試信息、重定位信息、PE頭基本信息、導出表個數和名稱、Section名稱大小屬性等、字符串特征, 進而提取匹配路徑、注冊表、URL、IP地址、比特幣錢包地址、挖礦軟件常見字符串等特征。前述軟件樣本脫敏通過MZ、PE、導入導出表破壞可執行性, 但PE91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合