?

基于登錄行為分析的失陷郵箱檢測技術研究

2023-09-07 08:47趙建軍汪旭童劉奇旭
西安電子科技大學學報 2023年4期
關鍵詞:子網IP地址攻擊者

趙建軍,汪旭童,崔 翔,劉奇旭

(1.中國科學院 信息工程研究所,北京 100089;2.中國科學院大學 網絡空間安全學院,北京 100089;3.中關村實驗室,北京 100089)

1 引 言

電子郵件是現代企業辦公環境中必不可少的工具之一。郵件往來能夠反映出一個企業的人員結構,郵件內容能夠反映出員工的工作內容,這些正是攻擊者渴望獲取的情報。近年來,高級持續性威脅(Advanced Persistent Threat,APT)組織活動日益猖獗,郵箱是其竊取情報、橫向移動的首要目標之一。在ATT&CK矩陣[1]中,使用電子郵箱相關技戰法的APT組織共20余個,超過總數的15%。此外,不斷泄露的用戶數據也為攻擊者提供了大量的郵箱賬號和密碼[2]。除被公開的數據外,還有更多的數據正在黑市和暗網中被攻擊者收集、交換和交易,這就導致大量郵箱處于隨時可被攻擊者接管的風險之中。攻擊者可以通過失陷郵箱來竊取用戶甚至企業的工作內容和成果,或者根據人際關系來進行橫向移動釣魚攻擊。失陷賬號存在時間越長,對企業和組織的危害越大,因此及時發現這類失陷賬號尤為重要。

目前,學術界關于電子郵件的研究大多集中在垃圾郵件、釣魚郵件的檢測和過濾上[3-6]。垃圾郵件、釣魚郵件檢測和失陷郵箱發現是在同一場景下的兩個不同方向。垃圾郵件、釣魚郵件的檢測側重對郵件內容的檢測,重點關注實時防御能力;失陷郵箱發現則是側重對失陷結果的檢測,重點支撐損失評估和溯源取證相關工作。文中涉及的研究側重后者。

在失陷郵箱發現的相關研究中,大多數檢測方法都是面向具體的一種攻擊過程(如魚叉釣魚、暴力破解、橫向移動等)。例如,2016年,HU等[7]參考社交網絡領域相關技術,采用社交關系圖拓撲分析的方法,借鑒并改進出度、Pagerank等5個指標對郵件往來關系進行評價?;卩]箱收發日志,將郵件往來關系異常的賬戶判定為失陷賬戶,該方法的平均準確度約為60%。2017年,HO等[8]使用郵件樣本、網絡日志(HTTP日志)、郵箱登錄日志作為分析數據,基于發件人信譽和郵件中統一資源定位系統(Uniform Resource Locator,URL)的域名信譽對郵件可疑程度進行評價,通過比對HTTP日志,追蹤用戶訪問釣魚鏈接并輸入賬戶口令的情況來確認郵箱是否失陷。2018年,楊加等[9]提出一種面向校園網場景下的失陷郵箱檢測方法。該方法分析郵箱登錄日志,使用登錄頻率閾值確定暴力猜解源IP地址,通過對賬號和IP地址對應關系的熵值進行聚類,將惡意IP地址歸為同一組織。同時,該方法通過對IP地址地理位置變化及異常時間登錄次數設定閾值來發現異常登錄行為。檢測橫向移動釣魚郵件的方法同樣能夠用來檢測失陷郵箱,但前提是攻擊者存在發件行為,如果攻擊者的目的只是竊取郵件,那么就無法檢測到此類失陷郵箱。2019年,HO等[10]結合文獻[7]和文獻[8]的方法,使用隨機森林來分類郵件是否為橫向移動釣魚郵件。該方法使用3組特征:郵件接收人相似性、發件人信譽和URL信譽。通過分析多個惡意郵件發件人是否存在因果關系來推測攻擊是否成功。

除郵箱賬號外,其他形式的在線網絡服務也會面臨賬號失陷的威脅。社交網絡的興起和不斷發展,吸引了大量關注和資金。攻擊者對社交網絡的非法使用能夠為其帶來豐厚的利益,如濫發廣告、售賣熱搜和點贊等。這些獲取利益的方式都需要大量賬號的支持,因此催生了各種針對社交網絡用戶賬號的攻擊,例如惡意注冊、賬號劫持、暴力猜解等。目前,學術界已經存在有關防御此類攻擊的技術研究[11-15],其思路和方法也能夠擴展到失陷郵箱的檢測中。

攻擊者在竊取郵件內容或發送橫向移動釣魚郵件時,必然首先通過POP3、IMAP、SMTP或者Webmail等方式登錄郵箱,即在失陷郵箱的登錄行為中必然存在除郵箱所有者以外的登錄行為(可疑登錄行為)。若可疑登錄行為可被提取和比較,則可在多個郵箱之間縱向對比其相似性。當可疑登錄行為在多個郵箱賬戶內出現且相似時,可以依據其共性來發現同一批失陷的郵箱群,并關聯到攻擊者。因此文中的研究重點是尋找攻擊行為共性可能出現的方面,以及如何利用該共性檢測失陷郵箱。

2 登錄行為的時空分析

郵箱的登錄日志能夠反映出郵箱的登錄行為。最基本的,登錄日志應包含郵箱地址、登錄IP地址和登錄時間等。其中IP地址屬于空間屬性,其相關的特征有歸屬城市、經緯度等;登錄時間屬于時間屬性。當登錄日志的記錄時間足夠長且信息足夠充分時,統計特征會暴露出攻擊者在入侵多個失陷郵箱時的共性,將從時間和空間的角度來研究該共性的刻畫方法。

2.1 郵箱失陷模型

將郵箱賬號作為目標的攻擊者主要可分為兩類:以竊取信息、投遞木馬為主要目標的APT組織和以獲取收益為主的互聯網黑產。二者在實施攻擊時的共同點是:在一定時期內,將某個企業或組織的所有郵箱賬戶均視為目標。前者以任務為驅動,即在攻擊任務開始后一段時間內,以期獲得盡可能多的郵箱賬號來竊取目標企業或者組織的工作內容和人員架構。后者以數據為驅動,即在其獲取新的泄露數據后,立即對郵箱賬號和密碼進行驗證,儲備為其攻擊資源。

基于此類攻擊場景,給出郵箱失陷模型,如圖1所示。在該模型中,多個攻擊者可能同時針對同一批目標,且每個攻擊者可能使用一個或多個IP地址來實施攻擊,因此難以僅通過IP地址來關聯攻擊行為。為解決這個問題,將登錄行為的兩個屬性(登錄地址和登錄時間)作為分析和關聯對象,即通過分析各郵箱中異常的一個或多個IP地址是否具備地理位置的空間相似性或登錄時間的同步性來確定郵箱是否失陷。

圖1 郵箱失陷模型

2.2 攻擊行為的空間相似性

攻擊者為了防止自己被溯源,幾乎不會使用自身所處的網絡作為攻擊出口。公有的云服務器由于其易于獲取、可隨時丟棄的特點,成為攻擊者首選的攻擊設施。此類云服務器以虛擬機的形式在使用時即時創建,在用戶棄用時徹底刪除,幾乎不會留下任何操作痕跡,并且相比于個人終端肉雞、物聯網僵尸節點等具備更好的可操作性和穩定性。目前國內外常見云服務提供商都在常見的大型數據中心(如位于香港、新加坡、東京等地)提供可選節點。對于國內的組織和企業來說,來自這些位置的登錄行為是比較可疑的。例外的是,用戶自身配置了境外的代理服務器來登錄郵箱,但在文中所針對的攻擊模型中,這種行為難以造成多個賬號的異常具有同步性。

筆者采用的空間相似性的判定思路是:假設郵箱i和郵箱j的常用登錄位置(可信)接近,且郵箱i和郵箱j的非常用登錄位置(可疑)也接近,認為郵箱i和郵箱j具備空間相似性。常用地特征用來將郵箱關聯到一個企業或組織,尤其是當日志數據中的郵箱地址是匿名地址時,難以確定哪些郵箱屬于同一個企業或組織,這時常用地特征顯得更加重要;異常地特征用來將攻擊者所使用的一個或多個IP關聯到同一個組織。當一批待分析的日志數據中,大量郵箱具備相近的常用地和異常地,即這些郵箱屬于同一個企業或組織且均被若干地理位置鄰近的IP地址登錄過時,滿足所述的郵箱失陷模型,這些郵箱存在失陷的可能。

2.2.1 空間相似性指標

具體地,從郵箱登錄日志中提取某個郵箱賬號中登錄次數最多的IP地址記作該郵箱的常用IP地址,提取登錄次數最少的IP地址記作該郵箱的異常IP地址。通過計算兩個郵箱之間常用IP地址地理位置間的距離與異常IP地址地理位置間的距離之和,即可量化此兩個郵箱的空間相似性,具體計算為

s(i,j)=dis(fi,fj)+dis(ai,aj) ,

(1)

其中,s表示郵箱i和郵箱j的空間相似度計算函數,dis表示兩個IP地址地理位置距離的計算函數,fi和fj分別表示郵箱i和郵箱j中的常用IP地址,ai和aj分別表示郵箱i和郵箱j中的異常IP地址。在計算距離時,可使用IP地址地理位置數據庫獲取IP地址對應的經緯度,再根據經緯度來計算兩個點的地理距離。

為使空間相似性指標更加準確,在提取常用地和異常地特征時,選取多個常用IP地址和異常IP地址。在計算時,首先列舉郵箱i的常用地IP地址到郵箱j的常用地IP地址的所有可能組合,其次分別計算所有距離并取最小值,對于異常地的計算與之類似。則此時郵箱i和郵箱j的空間相似度可以表示為

(2)

空間相似性指標代表了兩個賬戶之間最相近的空間位置關系,該指標越小,此兩個賬戶常用地IP地理位置越接近,且異常登錄IP地址地理位置也接近。選擇IP地址間的距離而不是直接根據IP地址歸屬城市來判斷空間相似度的原因在于,對于面積較小且較集中的城市群,地理位置鄰近的IP地址可能歸屬于不同的城市,導致無法將其關聯到同一類中,造成漏報。此外,經緯度相對城市更加客觀,避免了IP信息數據庫中因“城市、區縣等”定義模糊帶來的影響。

當若干郵箱兩兩之間的空間相似度都接近,且該郵箱群體的數量很多時,則可確定此郵箱群存在失陷可能。因此,對失陷郵箱群的檢測,可以通過劃分具有相近空間相似度的郵箱社區來實現。

2.2.2 圖構建與社區劃分

將郵箱賬戶作為節點,將郵箱間的空間相似度作為節點間邊連接的依據,可構建一個圖來表示待分析郵箱之間的空間鄰近關系。具體地,在構建圖時,引入一個閾值來確定兩個郵箱之間是否存在一條邊的連接。當郵箱i和郵箱j的空間相似性指標小于閾值時,此兩個郵箱之間連接一條邊,反之則不連接。閾值的確定會影響最終的結果,閾值過大時會引入較多誤報,閾值過小則會引起漏報。由于空間相似性指標通過計算兩地間的距離得出,因此在設定閾值時需考慮登錄地點的偏離范圍。根據文獻[16]的統計,國內主要城市的通勤空間半徑平均約為30 km,因此設定該閾值為30。

空間相似度圖G的構建過程可以描述為

(3)

圖構建完成后,使用Louvain算法對該圖進行社區劃分。Louvain算法是一種基于聚類的社區劃分算法,能夠快速有效地辨別有層次的社區結構從而對大型網絡進行社區劃分,具有快速、準確的特點,被認為是性能最好的網絡或圖的發現算法之一[17]。與傳統的聚類方法(如k-means和基于密度的聚類)相比,社區劃分算法可以更靈活地選擇和調整距離指標,并可以通過控制節點間邊的連接來調節圖的規模,以達到更好的聚類效果。

2.2.3 異常排名與信譽機制

對于郵箱是否確實失陷的問題,只能通過向郵箱所有者親自確認或者關聯威脅情報中的威脅標識(Indicators of Compromise,IoCs)。但在實際工作中,向郵箱所有者確認是不現實的,加之威脅情報又僅能披露部分惡意IP地址,使得對這一問題很難給出是和否的判斷。因此,從失陷郵箱檢測的目的性(評估損失、溯源攻擊)出發,參考DAS[8]的思路,給出一個按失陷可能性排序的郵箱列表,當工作人員需要調查取證時,可為其提供一個優先級的參考。

經過上述圖構建和社區劃分后,可得到若干社區,同一個社區內的郵箱的空間行為都較為相似。參考上述郵箱失陷模型,被同一攻擊者入侵的郵箱賬號將會被劃分到同一個社區內;對于其他郵箱賬戶,其空間特征復雜多樣,沒有規律,使得這些賬戶呈現出分布于不同的社區且社區內郵箱賬戶節點數較少的特點。因此可以依據社區規模對郵箱賬戶初步排序,即社區內節點數越多,越符合郵箱失陷模型,該社區被入侵的可能性就越高。

對于社區內的郵箱可疑度排序,引入了一個IP地址信譽評估機制。郵箱的常用IP地址和異常IP地址的信譽之差越大,說明該郵箱的常用IP地址越可信,異常IP地址越可疑,即該郵箱的排名應處于更靠前的位置。涉及多個常用地和多個異常地時,先計算所有常用IP地址信譽的平均值,再與所有異常IP地址信譽的平均值做差。

在具體計算IP地址的信譽時,使用3個特征:登錄天數比率平均值FA、登錄次數比率平均值FB和登錄方式個數指數FC。僅當一個IP地址登錄過較多郵箱數且在每個郵箱中都較活躍時,才具有較高的信譽值。反之,如果一個IP地址登錄過很多郵箱,但都不活躍,則較可疑。同時,一個IP地址被多個正常用戶使用時,登錄所用的協議更加隨機,因此特征FC數的值越大越可信。具體地,針對某一IP地址的登錄天數比率平均值的計算表示為

(4)

(5)

針對某一IP地址的登錄方式個數指數的計算表示為

FC(p)=0.1×2l-1,

(6)

其中,l表示登錄方式個數。

最終,針對某一IP地址的信譽r計算表示為

r(p)=log(FC(p)(FA(p)+FB(p))) 。

(7)

基于節點數量規模對社區可疑性進行排名,再輔以基于信譽機制的社區內賬戶排名,最終得到一個按照可疑度排序的郵箱列表,為工作人員提供優先級參考。

2.3 攻擊行為的時間同步性

基于節2.1中提及的郵箱失陷模型,攻擊者針對同一企業或組織的攻擊活動有可能集中在一段時期內。遭到入侵的郵箱賬戶在此期間內的登錄行為,會與之前后一定時期內的行為存在差異,且該差異會同時出現在多個郵箱中。因此在該場景下的分析思路是,找到某個郵箱的與其他時間段登錄行為不同的時間段,并調查其他郵箱在該時間段內是否也同樣存在異常。

2.3.1 IP地址變化頻率

當郵箱賬戶只被其所有者登錄時,登錄IP地址的變化可能不劇烈,或變化頻率較穩定。當所有者和攻擊者同時登錄郵箱賬戶時,則可能會產生交替的登錄行為,導致該時期的頻率變化與以往不同,如圖2所示。

圖2 攻擊者和所有者交替登錄造成IP地址頻繁改變

對一段時期內“登錄幾次后變化IP地址”這一指標進行統計,可以得到一個序列用來描述該時期內的IP變化情況,稱為“IP地址頻次描述序列”。以圖2為例,當只有郵箱所有者登錄時,該序列可表示為[0,0,2,1,0,1],意為在這段時期內,登錄1次和登錄2次后改變IP地址的情況有0個,登錄3次后改變IP地址的情況有2個,登錄4次后改變IP地址的情況有1個,……,登錄次數超過5次后改變IP地址的情況有1個。而當郵箱所有者和攻擊者同時登錄該郵箱賬戶時,該序列變為[8,4,1,1,0,0],出現了巨大差異。在此例中,使用的統計頻次閾值為5,即將同一IP地址登錄次數超過5次的情況合并,因此序列的長度為統計頻次閾值+1。

考慮到現實場景中,郵箱所有者可能同時使用多個客戶端或者Webmail來登錄郵箱,自身存在客戶端之間的交替登錄行為,因此在計算IP地址頻次描述序列時,須按各登錄方式(協議)分別進行,最大程度降低自身行為帶來的干擾。

2.3.2 異常窗

將郵箱的登錄日志按照等時間段分割為N段,每個時間段稱為一個“窗”,則在統計完每段的IP地址變化頻率后,可得到一個長度為N×(統計頻次閾值+1)的二維序列??紤]工作日與雙休日郵箱用戶的登錄頻率可能不同,將以周為單位來劃分統計時間段,即將窗大小設置為一周,將工作日與雙休日視作一個整體來統計。

在N個IP地址頻次描述序列中,若存在一個序列與其他序列存在較大差異,且其他序列又較為相似,則此時該序列異常,稱為“異常窗”,一個示例如圖3所示。示例中,t表示時間,縱坐標表示同一IP地址的登錄頻次。

圖3 異常窗

檢測異常窗可以通過能夠檢測異常點的聚類算法來解決,使用DBScan算法。DBScan算法是一種基于密度的空間聚類算法,屬于無監督聚類算法,該算法能夠將具有足夠密度的區域劃分為簇,并找出噪聲點(異常點)[18]。

DBScan有兩個關鍵參數:社區最大半徑Epsilon和社區最小點數minPts。Epsilon決定了兩個點的距離小于多少時才會劃分到同一個簇。在文中的研究場景中,設定該值為所有點兩兩距離的平均值,避免該值設置過大導致無法發現異常點,或者該值設置過小導致異常點過多。在計算兩點之間的距離時,采用歐式距離度量。參數minPts設定為2(算法默認值),表示在社區半徑內至少有2個點時,視作一個簇。

相較于聚類結果,文中更加關注異常點。在聚類完成后,將異常點標識為1,其他點標識為0,即可得到一個長度為N的序列,例如[0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0],表示日志共劃分為17周,在第8周和第10周中,登錄行為出現異常。當對所有郵箱進行檢測后,即可得知每周有哪些郵箱存在異常。

2.3.3 異常排名機制

登錄失陷郵箱的IP地址可能有多個,其中包含所有者和攻擊者的IP地址。為進一步篩選IP地址,文中定義如下規則來縮小范圍:假設郵箱i中第n周為異常周,對于本周登錄過該郵箱的一個IP地址a,當a同樣登錄過郵箱j且當周不是異常周,或a在除第n周外的其他周登錄過郵箱i且當周不是異常周時,認為該異常周不是由a造成的,因此在衡量失陷可能性時將a排除,不考慮a的影響。

若在多個異常周中都出現同一個IP地址,則這個IP地址較為可疑,且異常周的個數越多,可疑程度越大,也即與該IP地址關聯的郵箱的失陷可能性越大。因此,引入了一個指數形式的指標(郵箱異常指數)用來評價郵箱失陷的可能性。具體地,首先統計每個IP地址在所有郵箱的所有周內的異常周個數,由于統計范圍包含自身異常周,因此該計數≥1;其次,按式(8)計算指數和:

(8)

其中,m標識郵箱異常指數;i∈I,I為登錄過該郵箱且未被排除的IP地址集合;wi表示存在IP地址i的異常周的個數。

將一個異常周內的所有郵箱的異常指數的和作為該異常周的異常指數,便可對異常周進行排序。在排序異常周時,可將各種登錄方式(協議)的分析結果進行混合,以綜合判定異常情況。若異常周內只有一個異常郵箱,則不對該異常周排序。當一個郵箱同時出現在多個異常周時,取排名靠前的作為最終結果。

3 實驗與結果分析

3.1 數據集

文中使用的數據集由5個不同規模和起止日期的郵箱登錄日志組成,在對原始日志進行預處理后,提取登錄方式、登錄時間、登錄IP地址和郵箱賬號4個基本特征,其中登錄方式包括Web(通過登錄Webmail訪問郵箱)、POP3、IMAP和SMTP。為了消除DHCP客戶端造成的IP地址浮動,盡可能地減少郵箱所有者和攻擊者自身IP變化帶來的影響,除統計IP地址變化頻次外,在其他過程中將IP地址轉化為相應的子網進行統計和分析。NUR等[19]的研究表明,互聯網中使用最頻繁的是/24子網,因此在轉化時,將IP地址轉化為對應的/24子網。數據集的總體情況如表1所示。

表1 數據集總體情況

3.2 實驗結果與分析

在沒有其他參考依據或無法向郵箱所有者確定的情況下,使用威脅情報中的IoCs來匹配可疑IP是一種常規做法。匹配時需要考慮到IoCs的滯后性和時效性,如果日志中的某個IP地址的登錄時間在相關IoCs發布時間之前,且不早于發布時間6個月前,則認為該IP地址是惡意的。使用開源威脅情報Alienvault-OTX[20]作為參照,在匹配了5個數據集的所有IP地址(共299 844個)之后,均沒有IP地址被標識為惡意。這一結果也反映出僅依賴威脅情報時的局限性。因此,將匹配范圍擴大,使用/24子網作為匹配范圍,即若登錄IP地址的同子網IP地址存在匹配結果,就將該/24子網視作惡意子網。匹配結果如表2所示,其中已對惡意子網進行匿名化處理。在統計惡意子網時,若惡意子網所在地區是郵箱賬號常用地,則認為該結果是由于匹配范圍不準確造成的,不進行統計。

從威脅情報匹配結果來看,數據集1和數據集5的失陷情況非常符合節2.1中提到的郵箱失陷模型,因此在驗證文中的分析方法時,將重點關注在此兩個數據集上的檢測結果。

3.2.1 時空分析結果

在對5個數據集分別按照上述時間和空間分析方法進行檢測并基于表2中的統計進行驗證后,空間相似性分析結果如表3所示,時間同步性檢測結果如表4所示。

表4 時間同步性分析結果

從空間相似性分析結果可以看出,所輸出的郵箱個數,已經較原始郵箱數有大幅縮減,并且在各數據集中排名靠前的社區內均包含失陷的郵箱。在排名前5的社區中,除數據集4外,在其他數據集中的檢出率均達到了60%及以上,在數據集1中更是高達約78%。數據集4中的失陷郵箱未檢出是因為關聯的惡意IP地址相距較遠,不存在空間相似性,被排在了靠后的位置。筆者在對數據集1的檢出結果進行分析時發現,所檢出的異常地均不屬于子網B,原因是子網B在其所登錄的郵箱中的登錄次數較多,在計算空間相似度時,該子網沒有被當做異常地子網。

在時間同步性的檢測結果中,除數據集1中的最大異常周指數遠高于其他數據集外,在其他數據集上的表現均不理想。為研究其原因,筆者對所有惡意子網的行為進行了分析。在對每個惡意子網的登錄次數、登錄方式、登錄時間等進行分析后發現,在所有的惡意子網中,只有數據集1中的子網B在其登錄過的每個郵箱中,都具有較多的登錄次數且都集中在6天內,這足以造成IP地址頻次描述序列的改變。因此在時間同步性檢測中,能夠成功檢測出該子網造成的失陷郵箱。在表4展示的結果中,排名第一的異常周即為子網B的活躍時間,其登錄過的每一個郵箱,均在本周內出現異常。其他惡意子網的登錄次數普遍較少,均少于15次,難以造成IP地址頻次描述序列的異常,因此未能檢出。由于數據集1中的子網B和子網A在登錄方式、登錄頻率、目標郵箱上均有不同,因此認為此兩個惡意子網對應2個攻擊者。

從上述結果可以看出,當實際失陷情況符合節2.1中所述郵箱失陷模型時(數據集1和數據集5),文中提出的時間和空間兩個分析角度能夠成功檢出失陷郵箱并且具有互補性。若攻擊者在每個郵箱中的登錄次數較少,則雖登錄行為不足以引起IP頻次變化,但此時登錄IP會被判定為異常地,用空間分析方法能夠檢測出;反之,若登錄次數普遍較多,則雖登錄IP地址不會被判定為異常地,但郵箱所有者和攻擊者的交替登錄行為必然會改變IP地址變化頻次,此時可使用時間分析方法進行檢測。

3.2.2 對比分析

為驗證所提方法的先進性,將與DAS[8]在僅使用登錄日志時的表現進行比較。當一次登錄事件發生時,DAS使用兩個特征:① 該登錄事件之前,從登錄IP地址對應城市登錄過的用戶數;② 該登錄事件之前,當前用戶從IP地址對應城市登錄過的次數。DAS的計分算法是:統計所有事件中,每一個特征值都高于當前事件的事件個數,最終以該事件個數作為得分并按降序排序輸出。由于DAS所輸出的是可疑的登錄事件排名而非郵箱排名,因此對DAS進行了部分修改。首先,將每個數據集中的前1/8數據作為DAS的啟動數據;其次,將IP地址轉化為/24子網;最后,將同一個郵箱的所有登錄事件中最可疑的5個登錄事件的得分的平均值,作為該郵箱的最終得分。這就相當于對于真實失陷的郵箱,排除了異常不明顯的登錄行為,即相當于優化了DAS的檢測結果,使可能失陷的郵箱排在更靠前的位置。

為綜合評價所提出的空間和時間的分析結果,將由空間分析和時間分析所輸出的兩個郵箱列表交替合并為一個郵箱列表后,再與DAS進行比較。由于文中的檢測方法和DAS所輸出的郵箱賬戶的個數不同,考慮對比的合理性,設計了一種比較方法:選取兩種方法輸出的排名靠前的相同數量的郵箱列表進行比較,并以列表中的失陷郵箱的命中個數作為評價指標。對應于檢測方法在實際的應用場景中,考慮分析成本和時間限制,假定安全分析人員在一定時間內僅能人工分析部分郵箱賬戶,則此時在待分析對象中,應盡可能多地包含可能失陷的郵箱。因此要求在文中與DAS所輸出的郵箱列表中,失陷郵箱應盡可能排在靠前的位置。以數據中郵箱總數的10%、20%、30%作為負載限制分別統計文中方法和DAS的命中率后,結果如表5所示。

表5 文中方法與DAS命中率

從結果中可以看出,在待分析目標郵箱規模相同時,文中的方法優于DAS,尤其是在數據集1和數據集5中,文中的方法檢測出的失陷郵箱個數遠高于DAS。

3.2.3 未公開惡意子網檢測結果

除與公開的威脅情報進行匹配外,筆者對每個數據集中排名靠前的社區中的郵箱和異常指數較大的異常周內的郵箱進行了人工分析。

分析發現,在數據集1中排名第一的社區中,除惡意子網A外,還存在未公開的惡意子網N。惡意子網N在社區1中登錄過4個郵箱,在整個登錄日志中共登錄過8個郵箱。該子網登錄方式與惡意子網A相同,且在每個郵箱中的登錄次數均為1次,登錄行為與惡意子網A極為相似,因此筆者認為,惡意子網N與惡意子網A屬于同一個攻擊者。

在數據集2中排名第一的社區中,存在未公開的惡意子網O,在社區1中登錄過6個郵箱,在整個登錄日志中共登錄過15個郵箱。登錄方式全部一致,且在每個郵箱登錄3次至4次后,就換到下一個郵箱。該行為疑似攻擊者使用自動化腳本批量驗證賬戶和密碼。

在數據集5中排名第一的社區中,存在未公開的惡意子網P,在社區1中登錄過3個郵箱,在整個登錄日志中共登錄過7個郵箱。該子網與惡意子網M地理位置、登錄方式相同,時間集中且行為相似,因此筆者認為,惡意子網P與惡意子網M屬于同一個攻擊者。

在數據集5中排名第二的社區中,存在未公開的惡意子網Q,在社區1中登錄過4個郵箱,在整個登錄日志中共登錄過12個郵箱。該子網在每個郵箱中的登錄方式一致,登錄次數類似,且時間集中。但因其與惡意子網M、P的登錄方式不同,因此筆者認為該惡意子網對應另外一個攻擊者。

在數據集3中異常指數最大的異常周內,存在2個郵箱的異常指數超過1 000,且其登錄的IP地址存在交集,并幾乎在同一時間終止登錄行為,推測為這2個郵箱在失陷后被注銷。

3.3 實驗小結

對于活動不頻繁的郵箱賬戶入侵行為,攻擊者所使用的IP地址(子網)被成功判定為異常登錄IP地址(子網),利用其空間相似性,成功將失陷的郵箱賬戶劃分到了同一社區;對于登錄次數較多的賬戶入侵行為,攻擊者的登錄造成了IP地址變化頻率的劇烈波動,利用異常時間同步性,成功定位到了異常周。

綜合考慮空間和時間檢測結果時,以30%的負載為例,待分析郵箱共有2 084個,相比原始郵箱個數(6 975個)減少了4 891個,此時檢測結果中共包含114個失陷郵箱。對于安全分析人員而言,即在減少約70%工作量的情況下,能夠發現約60%的失陷郵箱,節省了大量時間。由于檢測結果中幾乎覆蓋了所有的惡意子網,因此在更加理想的情況下,若分析人員能夠根據已發現的失陷郵箱,定位到惡意IP地址(子網),再根據該IP地址(子網)關聯到所有被登錄過的失陷郵箱,則在同等工作量的情況下,能夠發現約98%的失陷郵箱。

此外,所提出的方法還檢測出已知攻擊者的未公開惡意子網2個,新發現攻擊者3個。

4 結束語

根據APT攻擊組織以及互聯網黑產等攻擊者在入侵郵箱賬戶時的行為特點,首先提出一個郵箱失陷模型,歸納了此類攻擊行為在利用受害者郵箱時具有共性。其次,針對該郵箱失陷模型,從空間和時間的角度分析登錄行為中存在的空間相似性和時間同步性,并設計了相應的方法來檢測異常的登錄行為,最終輸出按照失陷可能性排序的郵箱列表,為安全研究人員在實地調查、取證時提供優先級參考。為驗證方法有效性,在5個不同規模和起止日期的登錄日志數據集上進行實驗。結果表明,所提出的方法能夠成功檢測出失陷郵箱,檢測效果好于同類檢測系統DAS,并且具備發現未知惡意子網和攻擊者的能力。

猜你喜歡
子網IP地址攻擊者
一種簡單子網劃分方法及教學案例*
基于微分博弈的追逃問題最優策略設計
鐵路遠動系統幾種組網方式IP地址的申請和設置
子網劃分問題研究及應用
正面迎接批判
IP地址切換器(IPCFG)
基于SNMP的IP地址管理系統開發與應用
公安網絡中IP地址智能管理的研究與思考
子網劃分的簡易方法
有限次重復博弈下的網絡攻擊行為研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合