?

一種基于屬性的兩級敏感度計算模型

2021-05-10 11:19劉建華任丹丹王國銘
西安郵電大學學報 2021年6期
關鍵詞:字段敏感度姓名

劉建華,任丹丹,王國銘

(1.西安郵電大學 信息中心,陜西 西安 710121;2.西安郵電大學 計算機學院,陜西 西安 710121; 3.陜西師范大學 民族教育學院,陜西 西安 710119)

敏感信息[1]是指不當使用或未經授權被人接觸或修改會不利于國家利益或政府計劃的實行或不利于個人依法享有的個人隱私權的所有信息。中國《個人信息安全規范》將個人敏感信息界定為“一旦泄露、非法提供或濫用可能危害人身和財產安全,極易導致個人名譽、身心健康受到損害或歧視性待遇的個人信息”。在大數據環境下對敏感信息的保護十分重要,不同用戶針對敏感信息的敏感程度具有差異性,制定合理的訪問授權策略[2],可更為有效地保護敏感信息不被泄露。敏感程度即用戶希望敏感信息不被他人獲悉的程度,是用戶是否有權限訪問敏感信息的重要依據。因此,有效分析用戶針對敏感信息的敏感程度尤為重要。

針對敏感程度的測度,文獻[3]提出了基于屬性敏感度度量的自動信任協商模型,通過給出敏感度量化標準和屬性敏感度到訪問控制策略的映射規則,自動匹配相應的協商策略。該模型不僅提高了自動信任協商的效率,還減少了陌生域隱私泄露問題;面向敏感值和敏感程度同時保護的(SD,K)-anonymity模型,主要結合分類樹對敏感屬性進行敏感程度衡量[4];文獻[5]提出了可自動計算數據敏感性的動態框架,使數據敏感性會隨著時間段推移而變化,以保護敏感數據遠離未經授權的用戶;ε-敏感程度不可區分的隱私保護方法將敏感程度融入了隱私保護中,可防止攻擊者獲得用戶目標[6];敏感度感知的高維數據差分隱私保護方法主要利用信息熵衡量屬性的敏感程度[7]。然而,上述方法僅分析了敏感數據的敏感度屬性,并沒有充分考慮訪問敏感信息的用戶自身攜帶的敏感度屬性,屬性考慮的不全面會對敏感數據的隱私保護造成威脅。在某種特定應用場景下分析敏感程度,如采用統計方法構建敏感度計算公式,將高校圖書館服務質量評價指標分類[8];通過建立駕駛員信息敏感反應結構方程模型,分析不同駕駛員敏感信息的反應程度[9],但這些方法并不能適用于其他場景。

針對現有敏感度衡量方法中敏感度屬性考慮不全面,敏感程度分析模型不具有普適性的問題,擬建立一種基于屬性的兩級敏感度計算模型。通過結合用戶和敏感信息的敏感度屬性,從定量層面[10]準確計算用戶針對敏感信息的敏感程度,以期在不同場景下分析用戶針對敏感信息的敏感程度差異性,保護敏感信息不被泄露。

1 兩級敏感度模型

1.1 基于訪問控制的敏感信息分類模型

在訪問控制過程中,增加敏感信息敏感程度測度機制是提高敏感度計算普適性的有效方法?;谠L問控制的敏感信息分類模型如圖1所示。

在該模型中,角色即一種叫做“角色”的屬性,代表用戶的屬性集合。通過兩級敏感度計算模型分別計算出用戶和敏感信息的敏感度值,以及二級敏感度值,然后將包含用戶自身屬性、所處環境屬性和用戶敏感度屬性等用戶屬性隱含到“角色”里,使用戶通過權限訪問樹獲得密鑰,進行解密,進而訪問敏感信息。

1.2 兩級敏感度模型

基于屬性的兩級敏感度模型,主要從分層角度定義了兩種實體的敏感度,分別是敏感信息和用戶的敏感度,以及一種虛擬的敏感度,即用戶對于敏感信息的反應程度。用戶和敏感信息分別擁有的敏感度屬性為一級敏感度。用戶針對敏感信息的敏感程度為二級敏感度,是多對多的關系[11]。兩級敏感度模型如圖2所示。

圖2 兩級敏感度模型

用戶敏感度U、敏感信息敏感度I和二級敏感度S具體定義如下。

定義1用戶敏感度U為各個用戶自身具有的敏感度值,也稱用戶的敏感標簽,其指定了該用戶的敏感等級或者信任等級[12]。

定義2敏感信息敏感度I為各個敏感字段的敏感度值,也稱敏感信息的敏感標簽,說明了該敏感字段的敏感等級及其隱私保護的要求大小。

定義3二級敏感度S表示某一用戶針對某一敏感信字段的敏感程度,是多對多關系。

將敏感度的范圍設定為(0,1)的一個開區間,假設I,U,S∈(0,1),標度越小,表示I的敏感等級越低,U的敏感類型越輕微,S的程度越輕微。敏感度分類如表1所示。

表1 敏感度分類表

2 敏感度計算

分別采用層次分析法[13]和統計法計算一級敏感度中的敏感信息敏感度和用戶敏感度,采用線性回歸法計算二級敏感度。

2.1 一級敏感度計算

1)敏感信息敏感度計算。敏感信息涉及用戶的個人隱私,層次分析法不僅適用于存在不確定性和主觀信息的情況,還允許以合乎邏輯的方式運用經驗、洞察力和直覺。因此,通過定性指標模糊量化方法[14]計算敏感信息的敏感度。

設目標層為敏感信息I,準則層為各敏感字段a1,a2,…,an,I?{a1,a2,…,an}。類比Santy-成對比較矩陣標度表[15]中的重要性等級,按照1-9分級設計敏感性等級。在確定準則層各敏感字段之間的權重時,用相對尺度對所有敏感字段兩兩比較,盡可能減少性質不同的敏感字段間相互比較的困難。敏感字段ai與敏感字段aj的敏感性對比結果為aij,i,j∈n由9個敏感性等級及其賦值建立的敏感程度標度如表2所示。

表2 敏感程度標度

根據表2,對準則層各敏感字段創建成對比較矩陣,即

式中,n為A中敏感字段的個數。

敏感信息敏感度的計算步驟如下。

步驟1建立敏感信息敏感度的層次結構模型,即目標層的敏感信息和準則層的各敏感信息字段。

步驟2構建如表2所示的敏感程度標度表,依據表2,結合具體應用場景創建成對比較矩陣A。

步驟3在Matlab中運行層次分析法[13]程序,輸入矩陣A,輸出各敏感字段權重Q。

敏感信息敏感度的計算過程如圖3所示。

圖3 敏感信息敏感度計算過程

2)用戶敏感度計算。用戶即敏感信息的訪問者,通過分析用戶訪問日志,過濾包含關鍵詞的網際互連協議(Internet Protocol,IP),關鍵詞的選取與敏感信息相關[16]。最后,統計日志中IP出現的頻率作為用戶的敏感度[17]。具體計算步驟如下。

步驟1下載用戶網絡日志數據集D={date,time,ip,method,url,status}。

步驟2遍歷日志文件,包含關鍵字xxx的日志行用正則表達式[18]"(?:[0-9]{1,3}.){3}[0-9]{1,3}"提取IP。

步驟3創建列表countX存放包含關鍵字的IP,ipsum為不同IP出現次數,countX.count(ip)/ipsum即為不同IP出現的頻率。

2.2 二級敏感度計算

將二級敏感度S作為因變量,敏感信息敏感度I和用戶敏感度U作為自變量,通過自變量的最優組合共同預測二級敏感度,借助線性回歸法[19]構建二級敏感度對應的多元線性回歸模型,表達式為

S=β0+β1I+β2U

(1)

其中,β0、β1和β2表示回歸系數。

二級敏感度計算過程如圖4所示。首先,針對每一個敏感信息字段,建立一個以敏感信息敏感度和用戶敏感度作為自變量,二級敏感度作為因變量的數據集。然后,對其進行相關性分析,從箱圖和散點圖可視化分析數據分布情況,生成相關系數矩陣,從定量層面刻畫相關性。最后,通過劃分訓練集和測試集訓練回歸模型,得到相應的二級敏感度公式。

圖4 二級敏感度計算過程

3 實例驗證與分析

不同的用戶(如輔導員、任課老師等)對在校大學生(簡稱學生)敏感信息具有差異性,以此為例,驗證基于屬性的兩級敏感度計算模型的有效性。實驗硬件環境為Windows 10操作系統,主頻1.90 GHz,內存8 G。軟件環境為Python 3.7.2,Matlab 2018,JetBrains PyCharm 5.0.3。

3.1 學生敏感信息敏感度計算

選取表示學生敏感信息的學號、姓名、學院、專業、出生日期、性別和聯系電話等7個數據字段構建層次模型,如圖5所示。

圖5 層次結構模型

根據表2,結合接觸學生敏感信息各個字段時的反應程度,以及信息的保密程度,構造成對比較矩陣

在Matlab中運行層次分析法程序,輸入矩陣A,輸出權重Q=(0.034 5,0.245 7,0.110 8,0.141 0,0.174 9,0.116 0,0.176 6)。計算得出一致性指標CI=0.045 0,接近于0,有滿意的一致性,檢驗系數CR=0.033 1,CR<0.1,說明該成對比較矩陣通過了一致性檢驗,即權重Q可用來表示各敏感字段的敏感度。姓名的敏感度為0.245 7,是權重里最高的一個,因此,對姓名字段的保護要求也最高,其他敏感字段同理。

3.2 用戶敏感度計算

選取網絡日志數據集UserClustering作為實驗依據,其部分內容如圖6所示。

圖6 用戶訪問日志截取圖

考慮到訪問學生敏感信息,可將Student作為關鍵字進行篩選,然后遍歷日志文件每一行,查看是否包含關鍵字Student,包含關鍵字的日志行用正則表達式"(?:[0-9{1,3}.]){3}[0-9]{1,3}"提取IP,并統計IP出現的頻率[20],由此得到用戶的敏感度分布如圖7所示。

圖7 用戶敏感度分布

從圖7中可以看出,用戶118.244.228.205擁有最高的敏感度,說明該用戶的敏感等級最高,其信任等級也最高。其次是用戶118.244.228.208,該用戶敏感等級和信任等級僅次于用戶118.244.228.205,其他用戶同理。

3.3 用戶針對學生信息敏感程度計算

以姓名這一敏感字段為例,借助python實現計算,包括利用pandas和numpy對數據進行操作,使用matplotlib和seaborn進行圖像化,以及sklearn進行數據集訓練與模型導入[21]。

1)數據集準備。創建包含姓名敏感度、用戶敏感度以及二級敏感度的小型數據集,如表3所示。姓名敏感度是由前面計算出的敏感信息敏感度中姓名字段對應的值0.245 7為中心,左右0.01為單位擴展得到的5項值組成的一組數據,目的是為了讓層次分析法計算出的敏感信息敏感度值更具有客觀性,減少人為因素的干預。用戶敏感度即隨機抽取5位用戶組成。二級敏感度采用random模塊隨機生成介于姓名敏感度和用戶敏感度區間內的隨機值,由實際意義可知,二級敏感度受姓名敏感度和用戶敏感度相互牽制的影響,必然介于兩者之間。

表3 二級敏感度_姓名表

為了使數據集更具有說服力,復制該數據集3份,對應二級敏感度也隨機生成3份,得到總計20條數據的數據集Sen_2nd_namecsv。

2)相關性分析。采用describe()方法對數據進行描述性統計,并采用boxplot()方法繪制箱圖,姓名敏感度、用戶敏感度和二級敏感度的最大值、上四分位數、中位數、下四分位數及最小值如圖8所示。圖中空心原點表示異常值,可忽略不計。

圖8 二級敏感度_姓名箱圖

在描述統計之后對數據進行相關性分析,以此查找數據中特征值與標簽值之間的關系。采用corr()方法計算相關系數矩陣如表4所示。

表4 相關系數矩陣

從表4中可以看出,用戶敏感度和二級敏感度呈較強的正相關關系,姓名敏感度和二級敏感度呈較弱的負相關關系。

使用seaborn的pairplot建立散點圖,查看姓名敏感度、用戶敏感度分別對二級敏感度的影響,以及不同的因素對二級敏感度的預測線。二級敏感度_姓名散點如圖9所示。

圖9 二級敏感度_姓名/用戶散點

3)回歸模型的建立。使用train_test_split函數創建訓練集與測試集,訓練比例設置為0.8,將訓練集中的特征值與標簽值放入LinearRegression()模型中,并使用fit函數進行訓練,在模型訓練完成之后,由式(1)可得對應的線性回歸方程式為

S=0.108 2-0.084 9I+0.295 9U

(2)

即可得某一用戶針對姓名字段的敏感程度。例如,當姓名敏感度為0.245 7時,某一用戶敏感度為0.305 6,代入式(2)可計算出該用戶針對姓名的敏感程度為0.177 7,說明該用戶對姓名這一敏感字段輕微敏感。其他敏感字段的線性回歸模型建立方法同理。

用戶針對學生敏感信息各個字段的二級敏感度,描述了用戶針對不同敏感字段的反應程度,便于后續結合訪問控制策略判斷用戶是否可以訪問相應的敏感字段。該模型從全面計算用戶和敏感信息的敏感度屬性出發,有利于更好地保護敏感信息的隱私安全,且對應用場景沒有強依賴性,僅需要確定用戶群體和敏感信息內容后,便可分析出敏感程度的差異性。

4 結語

基于屬性的兩級敏感度計算模型是用戶在訪問控制過程中判斷訪問敏感信息敏感程度的一種測度模型。該模型不僅測度信息敏感度,還測度訪問該信息的用戶敏感度,計算訪問過程的綜合敏感度,充分全面考慮了兩者之間的影響與關聯性。實例驗證結果表明,該模型能有效地從定量層面計算出用戶針對敏感信息的敏感程度,只需在訪問控制模型中加入敏感度計算即可,具有通用性,且適用于非單一化應用場景下分析用戶對于敏感信息的反應程度。

猜你喜歡
字段敏感度姓名
帶鉤或不帶鉤選擇方框批量自動換
淺談臺灣原版中文圖書的編目經驗
跨文化敏感度綜述
小學語文寫作教學存在的問題及對策
XpertMTB/RIF技術在腎結核的早期診斷和利福平耐藥檢測中的價值
小記者檔案
一年級語文上冊期末測試
無正題名文獻著錄方法評述
無正題名文獻著錄方法評述
第一單元綜合模擬測試卷
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合