?

基于親密度理論構建嫌疑人通訊畫像

2024-01-12 13:25陳芳琳
廣東公安科技 2023年4期
關鍵詞:涉嫌犯罪頻數畫像

陳芳琳 鐘 婷

(廣東警官學院,廣東 廣州 510232)

通訊消息包含嫌疑人本身高消息頻次的親屬聯絡等社交聯絡“障眼”,如何在大量信息中高效撥開“障眼”找尋涉嫌犯罪的關聯,增加衡量維度深入挖掘數據潛力并推廣至偵查基層?另一層面,以往的數據挖掘多為復雜數學模型,算法研究等理論框架[1]未能與實際基層提取到的電子數據進行實戰演練。本文從一線立案偵查獲取到的涉疫走私嫌疑人手機電話通訊及微信通訊記錄入手,除考慮消息頻次外,構造基于通信頻次與再次聯絡間隔時長的三維矩陣親密度算法,為基層偵查提供可行分析路徑。

1 數據提取

涉嫌涉疫走私類型犯罪人員大多在“老鄉”等人介紹下短期涉險,團伙作案概率較高。本文研究對象是涉疫走私的嫌疑人手機信息,旨在利用提取到的通訊記錄來構造基于親密度理論的通訊畫像,為偵查提供幫助?;鶎硬块T通過設備提取到數據一般為json 格式(見圖1),包含昵稱、雙方發送消息數及存儲路徑。

圖1 嫌疑人通訊記錄(json 格式)

本文使用json 格式提取關鍵信息技術[2],將通訊對象以及對應的消息頻次(包含恢復數據)提取出來解析為html 格式(見圖2),每條聊天記錄的關鍵信息主要有時間戳、發送者昵稱、本人昵稱、聊天內容。

圖2 嫌疑人通訊記錄(html 格式)

如圖1 中“(1021)”所示,嫌疑人(嫌疑人在手機取證過程中顯示為Administrator,以下簡稱A)與各聯絡人都有往來的消息數,偵查人員一般根據該數字作為判斷是否為團伙,并展開研究甚至追蹤該人員,但消息頻數的統計不足以衡量雙方的關系深淺,需要更多維度作為變量進行數據挖掘。因此以涉疫走私嫌疑人手機通訊信息為例,本文主要利用時間戳展開研究。

2 親密度矩陣算法

社交媒體中來往回復速度一定程度上反映了雙方的親密程度?;哟螖嫡{查對回復消息的時間快慢程度進行親密度考量[3],發現5min內回復關系為非常親密,5~10min為親密,1h 內為普通朋友,1h 以上可能是垃圾信息或者廣告訂閱等,親密度較低。本研究利用這種親密指數參考進行親密度層級劃分。

筆者利用提取到的時間戳信息統計雙方有效回復的時間間隔,則暗含兩個維度是否有往來對話(跳過單方面發送消息),以及對話間隔時間;而親密度的另一個統計維度為時間序列,本文研究中用天數來劃分。在數據量巨大且衡量指標較多(本情況為三維變量),框架算法研究者[4]提出需要用矩陣來挖掘關聯關系,因此本文在理論模型上使用矩陣來記錄親密度Relationship Closeness(以下簡稱RC),矩陣算法公式如下:

該公式涉及的字母基本定義及備注如下:

(1)RC(A, ui)表示嫌疑人與聊天對象ui之間的親密度,則每位對象u 共M 次聊天記錄;以嫌疑人的最多通訊頻次來設定M(次),若不滿M(次),則在矩陣中設定為0。

(2)N 值(高頻通訊人數),為進一步縮小算法運算時間,本文N 為取值為15 人。偵查部門還可根據實際情況設定消息數的閾值,如超過500 條信息的人數,從而確定出N 值。

(3)n 值:n=1 為回復時間間隔小于5min;n=2 為5 ~10min; n=3 為10 ~60min;n=4 為60min 以上。

根據上述四個層級劃分親密度,如果以A為中心,共M 次聊天記錄,對其前N 位聊天對象的回復時間間隔進行四個層級頻次統計,例如兩次交流時間的間隔小于5min,則在第一個層級上的頻數累加;若時間間隔在5~10min內,則在該段時間間隔頻數累加,以此類推,如下矩陣所示:

3 嫌疑人通訊畫像

利用上述矩陣模型,代入基層部門提取到的案件手機信息進行可視化應用,畫出嫌疑人通訊畫像。首先,通過提取json 記錄的通訊消息數共36280 條通訊記錄。再根據其消息數由高到低排序出15 人作為進一步研究對象(以下通訊對象皆為化名)。如圖3 所示,中間是嫌疑人,連線中的數字是雙方的消息頻次。其中,消息數最高的聯絡人為“寂寞不哭”,達1021條消息。通訊畫像從這位開始,再根據理論畫出其通訊畫像。

圖3 嫌疑人A 與前15 位聯絡人畫像

令RC(A,ui)中的ui = 寂寞不哭,矩陣映射至如表1 所示:

表1 嫌疑人A 的與寂寞不哭通訊頻次統計矩陣

圖4是雙方通訊親密度隨時間變化的情況。利用折線圖中的橫軸為通訊頻次,以天數為劃分;縱軸為每天聯系的總次數。不同的顏色代表對應親密度層級;藍色占比越多,回復間隔時間越短,親密度關系越高。嫌疑人A 與化名為“寂寞不哭”的通訊從2021 年7 月8 日到次年3 月5 日,雖偶有聯絡頻次降低的情況,但總體看聯絡較為頻繁,該類聯絡人極可能屬于親屬或長期業務來往關系。對于此類通訊對象,若業務上無涉及涉嫌犯罪行為暫可排除其嫌疑,提高偵查效率。

圖4 RC(A,“寂寞不哭”)可視化畫像

作為對照,令ui= YS*,雙方消息頻數達986 條,親密度矩陣映射如表2 所示,將得到的數據進行可視化操作畫出通訊畫像,如圖5所示。

表2 嫌疑人A 的與YS*通訊頻次統計矩陣

圖5 RC(A,“YS*”)可視化畫像

雖然以“YS*”為代表的此類對象與以“寂寞不哭”為代表高消息頻數聯絡人在消息數上相差無幾,但經過RC 矩陣后數據呈現出明顯不同。前者(如圖5 最高往來頻次達95 次)相較于低頻的長期聯系的后者(如圖4 最高往來次數為35)在特定時間段來往極為頻繁,在偵查階段屬于重點對象。

根據圖4、圖 5 的畫像可看出,掌握特定涉嫌犯罪的事件時間后,YS*的研究意義要甚于消息頻次更多的“寂寞不哭”,前者在親密度高頻聯系(即回復時間小于5min)的占比83.8%不僅略高于后者的83.1%,且在2022 年1 月20 日達到聯系高峰,消息多且聯系極度頻繁。經與實戰偵查部門查證,該時間段與涉嫌走私犯罪行為實施時間重合關聯,可為涉嫌犯罪動機的時間提供輔證。畫像的目的在于將高往來人群(消息頻次較高)加以區分,排查出真正與涉嫌犯罪有關的人員,同時提供涉嫌犯罪行為的時間、人員認定等側面印證。

4 總結與展望

本文利用親密度理論搭建通訊矩陣算法模型,為僅停留在“消息頻數”的研究上新增了3 維度的評價變量,分別為雙方是否互動、互動消息間隔以及聯絡時間序列上的變化。隨后的可視化畫像能夠作為判斷該人物與嫌疑人之間通訊親密度關系的重要參考。該方法不需要額外購買用戶畫像等相關軟件即可分析提取到json 或html 數據格式,為基層單位因預算問題,或因數據量巨大導致程序耗時過長等提供切實可行的通訊畫像功能。

針對本文研究的矩陣式算法模型仍有發展的空間,例如微信通訊以及電話通訊親密度RC的時間粒度應該再細化,使用電話聯絡,相隔60min 以上較為常見,微信聯絡時間跨度較長但回復間隔時間極短,有時候甚至1min 可以有8 ~12 個來回對話;其次,M 的計數方式還待完善,以天數劃分會忽視午夜回復的聊天間隔時間。雖然在本次研究中跨午夜的情況不多,但仍可作為一個研究方向。

猜你喜歡
涉嫌犯罪頻數畫像
威猛的畫像
“00后”畫像
畫像
對我國涉嫌犯罪的經濟糾紛案件處理機制的評析及重構
中考頻數分布直方圖題型展示
學習制作頻數分布直方圖三部曲
涉嫌犯罪案件中煙草專賣品處理的法律問題探討
頻數和頻率
盜汗病治療藥物性味歸經頻數分析
潛行與畫像
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合