一種利用注意力增強卷積的暗網用戶對齊方法

2023-09-07 08:47楊燕燕杜彥輝劉洪夢趙佳鵬時金橋王學賓

西安電子科技大學學報 2023年4期

楊燕燕,杜彥輝,劉洪夢,趙佳鵬,時金橋,王學賓

(1.中國人民公安大學,信息網絡安全學院,北京 100038;2.北京郵電大學,網絡空間安全學院,北京 100876;3.中國科學院信息工程研究所,北京 100080)

1 引言

隨著互聯網技術飛速發展,網絡數據呈現爆發式增長,但網絡信息良莠不齊。有害信息傳播成為網絡空間管控領域的一大難題。對網絡文本作者開展身份識別,其中一個前提就是實現網絡用戶的對齊,對網絡文本的特征進行提取,判定多個文本是否為同一作者所做?；诰W絡文本作者風格分類識別技術的作者身份判定技術,可以協助相關執法機構獲取有害信息發布者的身份信息,為計算機取證提供依據,是凈化網絡空間的有效手段。暗網信息既具有短文本語料特征,又具有其獨特的犯罪“黑話”特性,決定了其相對明網數據來說,更加依賴全局信息和長序列信息來判斷語料的特征。

為了解決用戶身份識別問題中易于識別的特征稀缺問題,文獻[1]首先將文本卷積神經網絡(Text Convolutional Neural Networks,TextCNN)模型用于用戶身份識別,并在短文本語料上顯示出了良好的結果。文獻[2]在此基礎上結合對上下文信息和時間特征的分析,提出了一個在紅迪網和推特上建立社交媒體用戶代表的模型。文獻[3]基于此種模型引入異質圖方法對上下文信息進行建模,構造用戶嵌入,在用戶跨市場識別上取得了較好的結果。然而,卷積運算有一個顯著的弱點,即它只作用于一個局部鄰域,缺少全局信息[4]。另一方面,自注意力機制可以很好地提取全局信息和長序列信息用以建模。自我注意背后的關鍵思想是產生一個從隱藏單位計算出的值的加權平均值。暗網論壇中的網絡文本包含大量的長文本,已有的研究工作主要采用池化和卷積算子提取文本特征,比較適用于短文本,不適用于對暗網市場長文本的特征提取。增強提取長文本特征的能力是暗網文本特征提取面臨的主要挑戰。

針對已有的對暗網用戶發布文本內容特征進行提取的方法不能有效處理長文本的問題,筆者提出了一種適用于暗網長文本特征提取的方法。通過自注意力機制增強卷積,實現長文本特征的提取。在公開的暗網市場數據集上,達到改進基于暗網用戶發布文本內容對齊用戶的效果。主要創新點在于提出使用自注意力機制與卷積網絡相結合的方式提取用戶文本內容的特征,并取得了較好的實驗效果,并且驗證了完全自注意模型比完全卷積結構差,當卷積和自注意相結合時才會得到最好的結果。實證研究表明,將卷積特征映射與一組通過自注意產生的特征映射連接,可增強卷積算子。大量的實驗表明,注意力增強可以有效改進用戶對齊的結果。

2 相關工作

暗網上的內容包括專門用于非法毒品交易、成人內容、假冒商品和信息、泄露的數據、欺詐和其他非法服務的資源[5],還包括討論政治、匿名化和加密貨幣的論壇。

文獻[1]引入了卷積神經網絡進行文本嵌入,利用多個不同大小的卷積核來提取句子中的關鍵信息(類似于多窗口大小的n-gram模型),從而能夠更好地分類捕捉局部相關性。在關于用戶身份識別的后續工作中,[6-7]利用這些想法來證明卷積神經網絡模型優于其他模型,特別是對于短文本語料。對子詞標記化的進一步研究[8],特別是字節級標記化,使得多種語言跨數據共享詞匯表成為可能。使用子詞標記器建立的模型在特定語言[9]和跨多語言社交媒體數據[2]的用戶對齊任務上表現良好。自2013年以來,非英語和多語言暗網市場的數量一直在增加[10]。筆者的工作建立在以上想法的基礎上,通過使用面對暗網的注意力增強卷積神經網絡(Darkweb Attention augmented Convolutional Networks,DACN)模型,對句子中字符和子詞級標記進行實驗。

自注意力機制[11]是一種最新的捕獲全局信息的方式,主要應用于序列建模和生成建模任務。值得注意的是,文獻[12]首次提出將注意力與遞歸神經網絡結合起來,用于機器翻譯中的對齊。利用自我注意與卷積是最近在自然語言處理和強化學習的工作中常用的一個機制。例如,文獻[13-14]的Transformer架構分別在自注意層和卷積層之間交替進行問答應用程序和機器翻譯。此外,針對視覺任務提出了多種注意機制,以解決卷積的弱點。例如,文獻[15-16]使用從整個特征地圖中聚集出來的信號來重新加權特征通道,而瓶頸注意模塊(Bottleneck Attention Module,BAM)[17]和卷積注意力機制模塊(Convolutional Block Attention Module,CBAM)[18]模型在信道和空間維度上獨立地細化卷積特征。在非局部神經網絡中[19],通過在卷積結構中使用自注意的一些非局部剩余塊,在視頻分類和目標檢測方面得到了改進。

文獻[4]使用自注意力機制替代卷積,引入了一種新的二維相對自注意機制,證明了其在取代卷積作為圖像分類的獨立計算原語方面具有競爭力,最后證明了當卷積和自注意相結合時,圖像分類結果最好。最近的工作利用異構信息網絡嵌入的概念來改進圖建模,其中不同類型的節點、關系(邊)和路徑可以通過類型實體來表示[20-23]。文獻[24]使用異構信息網絡在暗網上建模市場供應商西比爾(sybil)賬戶,其中代表一個對象的每個節點都與各種特征(如內容、攝影風格、用戶簡介和物質信息)相關聯。類似地,文獻[25]提出了一種多視圖無監督的方法,該方法結合了文本內容、物質和位置的特征來生成供應商嵌入。文獻[26]提出了一種新穎的方法,將時間、內容風格與訪問身份結合,以建模和增強用戶表示,從而用于識別暗網論壇中的相同用戶。文獻[3]在此基礎上引入異質圖方法對上下文信息進行建模,從而增強用戶嵌入,并首次應用到暗網上,在暗網用戶跨市場對齊上取得了較好的結果。

通過對已有工作的廣泛調研,發現文本特征的提取是用戶對齊的先決條件,而用戶的一些網絡行為也在發揮著越來越重要的作用,如發帖時間、用戶之間的交互行為等。然而,目前的文本特征提取工作對于文本特征的表示能力不足,尤其是面對大規模訓練文本時,以卷積神經網絡為代表的特征提取器特征提取的能力受到顯著制約,與池化或卷積算子不同,加權平均運算中使用的權值是通過隱藏單元之間的相似性函數動態產生的。輸入信號之間的相互作用取決于信號本身,而不像在卷積中由它們的相對位置來預先確定,故自我注意力可以捕捉全局信息。受到近年來自注意力機制對于大規模數據特征提取有效性的啟發,筆者提出采用自注意力增強卷積的方式提取用戶的文本特征,并通過廣泛的實驗驗證了其對用戶對齊方法改進的有效性。

3 基于注意力增強卷積的暗網用戶對齊方法

對于暗網用戶的對齊,首先需要獲取每個用戶在一段時間內發布的帖子,然后從用戶發布的帖子中提取有效的特征。除此之外,還需獲取帖子的文本內容、時間和上下文信息,組合形成用戶最終的嵌入式表示。所提方法的建?？蚣苁鞘艿搅宋墨I[3]的啟發,并且使用注意力增強卷積的方法添加了長文本語料特征,從而增強了模型的表示能力。

本框架分為兩個主要的部分:① 將用戶在同一時間片段內發布的帖子集合中的每一條帖子的文本、時間和上下文信息分別解析為長、短文本特征、時間戳特征和上下文特征,即向量化過程;② 使用度量學習方法gφ訓練f(θ),使同一用戶獲得相同的向量化表示,具體的建模過程如圖1所示。在接下來的節中,將根據各個組件來介紹所提方法。

圖1 文中方法的建模過程

3.1 文本嵌入

文本嵌入的功能是從文本輸入中提取語義特征,并將語義特征投影到信息空間中。首先,填充句子,以保持所有句子的統一長度,使得文本嵌入輸入是固定長度為m的句子s。其次,通過獨熱編碼(one-hot)將每個詞映射到dt維連續空間,得到單詞嵌入向量k。然后,將所有的詞向量連接起來,形成一個m×dt矩陣作為模型輸入:X=[X0,X1,…,Xm-1]。最后,應用語義特征提取器在嵌入矩陣上產生潛在的語義特征映射。

3.1.1 短文本特征

利用卷積算子對短文本預料特征進行嵌入,通過一維卷積來獲取句子中的n-gram特征表示,利用多個不同大小的卷積核來提取句子中的關鍵信息(類似于多窗口大小的n-gram模型),從而能夠更好地捕捉局部相關性。具體工作機制是:卷積窗口沿著長度為n的文本一個個滑動,類似于n-gram機制對文本切詞,然后和文本中的每個詞進行相似度計算,后面拼接最大池化層。最后,拼接全連接層,生成短文本語料特征嵌入。

3.1.2 長文本特征

由于Transformer模型直接處理整個句子的信息,因此必須提供每個字的位置信息給Transformer模型,這樣它才能識別出語言中的順序關系。對于輸入的句子X,通過文本嵌入得到該句子中每個字的字向量,同時通過位置向量得到所有字的位置向量,將其相加(維度相同,可以直接相加),得到該字最終的向量表示,其計算公式為

MultiHead(Q,K,V)=Concat(Att1,Att2,…,Attn)w0。

(1)

多頭注意力機制可以為注意力模塊提供多個表示子空間。Atti表示第i個注意力頭,w0為詞語的初始向量標識,Concat分別表示n個不同的注意力頭相拼接。因為在每個注意力模塊中,采用不同的Q,K,V權重矩陣,每個矩陣都是隨機初始化生成的。然后通過訓練,將詞嵌入投影到不同的表示子空間中。在上一步得到了經過多頭注意力機制加權之后輸出,再通過前饋神經網絡生成潛在語義特征圖。

3.1.3 注意增強卷積

相對于卷積算子受到其局部性和缺乏對全局上下文的理解的限制,所提的方法有如下優點:① 使用一種注意機制,該機制可以共同關注空間和特征子空間(每個頭對應一個特征子空間);② 引入額外的特征映射。圖2總結了提出的增廣卷積,其中Ti表示句子的第i個字符,Ei表示第i個字符對應的向量表示,Hζ表示句子向量經過注意力機制的投影空間,HΦ表示經過卷積和的投影空間,Hξ表示最終的投影空間。連接卷積和注意特征映射:形式上,考慮一個通道數量為mc,級聯分類器數量為nc的卷積算子,和一個通道數量為mt,級聯分類器數量為nt的注意力特征映射。相應的注意增強卷積計算公式為

圖2 文本嵌入模型圖

AAConv(X)=Concat[Conv(X),MultiHead(X)] ,

(2)

其中,Conv(·)和MultiHead(·)分別為上文介紹的卷積函數和多頭注意力函數,AAConv(·)為所提注意力增強的卷積神經網絡。這樣的結構可以直接產生額外的特征圖,而不是通過加法、乘法或門控重新校準卷積特征。這一特性允許靈活地調整注意力通道的比例,考慮從完全卷積到完全注意模型的一系列架構。

3.2 時間嵌入

每個帖子的時間信息對應于帖子創建的時間,文中用每篇文章的日期數作為時間特征,它是一個維數為dτ的嵌入向量標識,dτ的緯度與詞匯矩陣EW中每個詞匯的維度相同。

3.3 上下文嵌入

文獻[26]使用了子論壇作為紅迪網文章的背景。借鑒此方式,將一篇文章的子論壇編碼為一個獨熱向量,并使用它來生成一個上下文嵌入。在前面提到的工作中,這個嵌入是隨機初始化的。文獻[3]改變了這種設置,使用一種基于論壇帖子構建的異構圖的替代方法來初始化這種嵌入。

定義1(異構圖) 異構圖G=(V,E,T),是每個節點v和邊e與邊的類別TI∈T關聯,其中,關聯是由映射函數φ(v):V→TV,ψ(e):E→TE給出的;其中,|TV|+|TE|>2。

構建一個圖,其中有4種類型的節點:用戶(U)、子論壇(S)、線程(T)和帖子(P),每條邊都表示新線程的帖子(U-T)、回復現有的帖子(U-P)(評論)或包含(T-P、S-T)關系。為了學習這種異構圖中的節點嵌入,利用了metapath2vec框架為暗網論壇設計的特定元路徑方案。metapath2vec通過最大化異構鄰域的概率來生成維度為dc的嵌入。每個元路徑方案都可以將特定的語義關系合并到節點嵌入中。

因此,為了完全捕獲異構圖中的語義關系,使用了7種元路徑方案:UPTSTPU、UTSTPU、UPTSTU、UTSTU、UPTPU、UPTU和UTPU。學習到的嵌入將保留每個子論壇、所包括的帖子以及相關用戶之間的語義關系。

3.4 用戶發布帖子片段集合

一個用戶的多個帖子中每個組件的嵌入被連接到一個de=dt+dτ+dc維嵌入中。因此,有L個帖子的集合有L×de維的嵌入。文中為每個集合生成一個最終的嵌入。對于Transformer模型,集合嵌入作為Transformer模型的輸入[11,27],每個嵌入作為總序列中的一個元素。在平均池化中,集合嵌入是后置嵌入的平均值,導致了一個維化的集合嵌入,得到一個de維的嵌入表示。在這個池化架構中不使用位置嵌入,如圖3所示。

圖3 用戶建模模型圖

3.5 基于度量學習的用戶對齊方法

在基于用戶發帖內容得到了用戶的向量表示之后,采用對分類的方法對齊用戶,主要是基于用戶的表示向量計算用戶表示向量的相似度。為了訓練嵌入的f(θ),文中將其組成為一個鑒別分類器gφ：RD→RY,參數φ通過訓練預測一個集合的用戶,其中Y是訓練集中的用戶數量。

分類損失函數Softmax(SM):定義了參數φ=W,W∈RY×D為一個可學習的權重矩陣,并定義參數為φ=W的映射gφ(z)=softmax(W*z)。當使用這個損失函數時,可以使用歐幾里得距離比較嵌入。

4 實驗分析

4.1 數據集

文中使用了兩個暗網市場的數據集——絲綢之路(SR)和廣場市場(Agora)。數據來源主要是基于文獻[3]構造的數據集,該數據集通過基于規則和人工分析的結果標注數據。文中將數據集分成大小相等的訓練集和測試集,并按時間順序在中間進行分割。除此之外,測試數據中包含了訓練集中沒有的用戶。

4.2 對比模型

為了驗證每個建模貢獻的優點,將其與下面描述的3個對比模型進行了比較。經過查閱文獻可知,筆者較早開展了注意力增強卷積對齊用戶的工作,將已有工作分為文本嵌入模型和用戶表示模型兩類,在公開數據集上,通過實證實驗對比突出所提方法的優勢,驗證了所提方法的有效性。

4.2.1 文本嵌入模型

(1) TextCNN(2014)模型[1]：一個基于短文本預料特征的用戶多賬號關聯模型。該模型使用文本卷積神經網絡對每個文本進行嵌入,不支持其他屬性(時間、上下文),同時只考慮每次發表1個文本。

表1 預處理后的數據的統計數據個

(2) Transformer(2017)模型[11]：一個基于長序列信息的用戶多賬號關聯模型。該模型使用Transformer對每個文本進行嵌入,不支持其他屬性(時間、上下文),同時只考慮每次發表1個文本。

4.2.2 用戶表示模型

(1) IUR(2019)模型[2]：該模型不考慮基于圖的上下文信息。

(2) SYSML-CNN(2021)模型[3]：該模型使用文本卷積神經網絡對每個文本進行嵌入,同時考慮到時間和上下文信息,構建用戶嵌入,進行用戶多賬號關聯。

(3) SYSML-Transformer(2021)模型[3]：該模型使用Transformer對每個文本進行嵌入,同時考慮到時間和上下文信息,構建用戶嵌入,進行用戶多賬號關聯。

4.3 評價方法和參數設置

雖然無法獲得擁有多個賬戶的單個用戶的真實標簽,但單個模型仍然可以通過衡量它們在用戶對齊上的表現來進行比較。對每種方法生成的嵌入都使用基于檢索的度量標準進行評估。將所有事件嵌入的集合表示為E={e1,e2,…,en},并讓Q={q1,q2,…,qK}∈E為采樣子集。計算了查詢事件嵌入與所有事件的余弦相似度。讓Ri={ri1,ri2,…,rin}表示E中的事件列表,按它們與事件qi的余弦相似性(不包括事件本身)排序。使用了以下度量方式。

平均倒數排名(Mean Reaprocal Rank,MRR)是一個國際上通用的對搜索算法進行評價的機制,即第1個結果匹配,分數為1,第2個匹配分數為0.5,……,第n個匹配分數為1/n,如果沒有匹配的句子分數為0。最終的分數為所有得分之和,其計算公式為

(3)

其中,k表示用戶個數,A(rij)表示根據用戶發帖結果計算的排名值。Recall@k表示同一用戶的發布帖子內容是否發生在子集內,MRR(Q)表示所有查詢樣本中這些召回值的平均值。

4.4 實驗結果

理論上自注意力機制在取代卷積作為獨立計算單元方面是有競爭力的,但是在消融實驗中發現,將自注意力和卷積組合起來的情況可以獲得最好的結果。因此,筆者并沒有完全拋棄卷積,而是提出使用自注意力機制來增強卷積,即將強調局部性的卷積特征圖和基于自注意力機制產生的能夠建模更長距離依賴的特征圖拼接來獲得最終結果。評估結果見表2。

表2 DACN兩個數據集的評估結果

MRR為平均倒數排名指標,Recall@10表示計算前10名的召回率。由表2可以看出,在只考慮文本建模的模型中,DACN模型比TextCNN模型的MRR值平均高約2.45%,Recall@10值平均高約0.16%;DACN模型比Transformer模型的MRR值平均高約4.70%,Recall@10值平均高約6.35%;在用戶模型中,DACN模型比IUR模型的MRR值平均高約7.55%,Recall@10值平均高約8.80%; DACN模型比SYSML-CNN模型的MRR值平均高約3.25%,Recall@10值平均高約2.65%;DACN模型比SYSML-Transformer模型的MRR值平均高約6.90%,Recall@10值平均高約8.70%。我們發現,注意力增強卷積都實現了一致的提升。另外,完全的自注意模型(不用卷積那部分),可以看作是注意力增強模型的一種特殊情況,但結果比完全卷積結構略差。

在對兩個數據集的結果觀察后發現,在Recall@10中用戶正確匹配的位置數量對比中,前10個用戶正確匹配的位置,無論在哪個位置,所提模型的匹配數量均比SYSML-CNN 和SYSML-Transformer模型多,說明所提模型優于SYSML-CNN 和SYSML-Transformer模型,具體如圖4和圖5所示。

圖4 廣場市場數據集用戶正確匹配個數對比圖

圖5 絲綢之路數據集用戶正確匹配個數對比圖

5 結束語

暗網因其匿名性吸引了大量犯罪分子從事違法犯罪活動,同時也給執法人員帶來了極大困難。近年來深度神經網絡在各個領域取得廣泛成功,越來越多的研究者開始利用神經網絡對匿名的網絡文本作者進行身份識別。針對已有的方法主要面向短文本、不擅長處理全局和長序列信息的問題,提出了一種自注意機制來增強卷積算子,利用長序列信息來建模暗網用戶發表的網絡文本的方法,從文本內容入手,對匿名的暗網用戶進行多賬號關聯,達到聚合多個匿名賬號信息的目的,為獲取用戶的真實身份提供更多線索。在公開數據的實驗中,結果表明,所提方法優于已有工作,驗證了所提方法的有效性;同時,在探索不同的注意機制如何權衡計算效率和表征能力的消融實驗中,發現注意力機制很大程度上增強了卷積算子提取用戶特征的性能。