?

機器學習在網絡隱私安全中的應用研究

2020-04-14 04:54陳勤中楊晨鄭澳謝新雨
電腦知識與技術 2020年4期
關鍵詞:隱私保護機器學習網絡安全

陳勤中 楊晨 鄭澳 謝新雨

摘要:機器學習作為當下人工智能領域最火熱的前沿技術,正在一步一步顛覆各個產業。未來,它將會滲透到我們生活的方方面面,成為我們身邊不可或缺的一項技術。而這其中,網絡安全則是能夠讓機器學習大展拳腳的領域。在眾多網絡安全問題中,隱私保護是一個比較棘手的問題,因而它更加需要機器學習等新技術、新方法、新觀點的引入來幫助解決一些問題。為此展開的研究內容包括機器學習概述、機器學習在網絡安全中應用的意義、機器學習在網絡安全研究中的應用流程以及機器學習在隱私保護中的應用四個部分。其中重點闡述隱私保護的相關問題,提出將深度學習方法中最先進的匹配算法與信息理論數據保護技術相結合,從而引入到生物識別認證中。在確保匹配精確度損失最小的同時,總結出高標準的隱私保護算法,使得商業、政府實體和最終用戶都能夠更廣泛地接受隱私保護技術。

關鍵詞:機器學習;網絡安全;隱私保護

中圖分類號:TP309.2

文獻標識碼:A

文章編號:1009-3044(2020)04-0009-04

收稿日期:2019-12-04

基金項目:2019年大連外國語大學大學生創新創業訓練計劃項目(項目編號:201910172189);2019年遼寧省大學生創新創業訓練計劃項目(項目編號:201910172064);大連外國語大學創新創業教育中心資助;2017年遼寧省高等學?;究蒲许椖浚椖烤幪枺?O17JYTO9)

作者簡介:陳勤中(1998—),男,大連外國語大學本科生,主要研究方向為機器學習、網絡安全、密碼學;楊晨(1980—),男,副教授,碩士,主要研究方向為機器學習安全與隱私保護;鄭澳(1999—),女,大連外國語大學本科生,主要研究方向為大數據安全、隱私保護;謝新雨(1999—),女,大連外國語大學本科生,主要研究方向為網絡安全、大數據技術應用。

隨著信息技術的發展進步,人類在工作學習以及溝通交流上變得極為高效,但與此同時,人們對隱私安全的定義也在不斷地刷新。你的上網購物記錄會透露你的消費習慣;你的微博會告訴世界你的生活習慣;你的朋友圈和聯系人會暴露你的人際網絡;你的電子郵件和短信會顯露你的工作狀態;你手機上的App可以定位你的位置……這些問題依靠傳統的隱私保護技術就可以得到很好的解決,而在一些新興的科技領域中,傳統的隱私保護技術已經很難解決所有的問題了。比如,在生物特征識別技術中,用于識別用戶身份的敏感信息極容易成為被攻擊的對象,但在此之上進行的技術優化雖然增強了其安全性,卻使得被保護用戶信息匹配的精確度降低了。這無疑會帶來糟糕的用戶體驗使得該技術難以普及,而問題背后則是現有隱私保護算法存在嚴重缺陷,這種缺陷僅靠人工優化成本巨大且收效甚微,因此急需一種解決問題的新思路。而近年來隨著人工智能領域的興起,機器學習技術的引進為諸多走入瓶頸的產業帶來了新的希望,網絡安全就是其中受益頗豐的重要領域,機器學習技術深入應用到隱私保護的相關問題中,將為解決生物特征認證中匹配精確度與安全性相互制約的問題提供新的思考。

1 機器學習概述

1.1 介紹

機器學習是人工智能的一個分支。人工智能致力于創造出比人類更能完成復雜任務的機器。這些任務通常涉及判斷、策略和認知推理,這些技能最初被認為是機器的“禁區”。與人工編程相比,機器學習系統自動地從數據中學習程序,這一點非常吸引人。在過去的二十年里,機器學習已經迅速地在計算機科學等領域普及,被廣泛應用于網絡搜索、垃圾郵件過濾、推薦系統、廣告投放、信用評價、欺詐檢測和股票交易等領域。

1.2 基本原理

機器學習使用實例數據或過去的經驗訓練計算機,以優化計算機性能標準[1]。當人們不能直接編寫計算機程序解決特定的問題,而是需要借助于實例數據或經驗時,就需要機器學習。

現實世界總是有規律的。機器學習正是從已知實例中自動發現規律,建立對未知實例的預測模型并根據經驗不斷提高、不斷改進預測性能。所謂的“學習”,其實就是模型訓練。更直白地說,是根據一些已知條件,推導出一個結論,這個結論是一個函數,函數的某些部分是一個常量,但是常量本身并不是已知的。我們需要分析海量數據,去進一步推斷出缺失的這些常量。

2 機器學習在網絡安全中應用的意義

機器學習在網絡安全中應用的意義主要體現在,機器學習依靠自身強大的數據分析能力,在應用的同時,可以幫助用戶及時且有效地對網絡安全事件做出響應。尤其是遇到團隊安全技能不足的狀況時,可以設置自動執行來代替團隊執行一些瑣碎的系統安全任務,有利于切實保障用戶的網絡安全。另外,機器學習與傳統的電子科技產品進行融合,有助于清除產品中的惡意軟件,進而達到提高產品安全系數和運行穩定性的目的。

立足于網絡安全領域,機器學習和深度學習是網絡安全技術不可缺少的組成部分,尤其是深度學習,已經成為信息安全領域關注的焦點。并且,在網絡信息安全技術領域,整個行業都以借助深度學習為網絡空間安全提供解決方案作為重要抓手,在地域未知攻擊、實時檢測、應對系統漏洞與威脅等方面進行應用。隨著信息技術的發展,攻擊行為也在不斷地升級變化,因而,機器學習與深度學習在應對攻擊、維護網絡安全方面更加具有優勢和發展潛力,也是整個網絡空間安全領域發展的趨勢和導向[2]。

在網絡安全領域應用機器學習、神經網絡等技術,對于提高網絡的安全性,降低網絡的維護成本,有著積極的意義。人工智能與其他傳統產業的結合,已經收獲了許多豐碩的成果。將機器學習技術應用到網絡安全領域,必將為網絡安全技術帶來新的發展方向,引領網絡安全進入嶄新的階段。除此之外,利用人工智能技術進行網絡攻擊的手段也已經出現。未來,網絡攻擊與防御將會是兩方人工智能技術的比拼。所以,將機器學習應用于網絡安全中是有益且有必要的,機器學習必將推動網絡安全技術獲得長足的進步[3]。

3 機器學習在網絡安全研究中的應用流程

機器學習從大量數據中獲取已知屬性,解決分類、聚類、降維等問題。如圖1所示,機器學習在網絡空間安全研究中一般的應用流程,主要包括安全問題抽象、數據釆集、數據預處理和安全特征提取、模型構建、模型驗證以及模型效果評估六個階段。在整個應用流程中,各階段不能獨立存在,相互之間有一定的關聯關系[4]。

按照邏輯順序總結來看,第一步,通過映射將網絡空間中的安全問題抽象為機器學習能夠處理的類別對象,這種類別對象通常指的是分類、聚類、降維等問題。第二步,通過Wireshark、Netflow、日志收集工具等手段從系統、網絡以及應用三個層面釆集大量機器學習算法需要用到的有效數據。第三步,對釆集到的原始數據進行清洗和處理之后,完成對缺失、異常、非平衡以及未分割數據集數據的預處理優化。通過機器學習進行數據集的相關準備,整理集合出訓練集、驗證集和測試集。最后,將網絡空間中最具有安全問題的屬性提取出來以完成安全特征的提取。第四步則是整個流程中的中心環節,這一環節根據數據預處理之后的數據集參照目標問題類型,選擇出最恰當的機器學習算法,并完成參數的調整和優化。第五步,通過k倍交叉驗證等多種驗證方法對訓練的模型進行驗證,確認模型是否穩定且足夠有效。第六步,通過對測試集進行效果評估來檢驗機器學習模型的學習效果以及泛化能力。而這其中對于不同類別、不同領域問題的效果評估,通常會釆用不同的評估指標。

4 機器學習在隱私保護中的應用

4.1 介紹

鑒于我們每天都會留下大量的數字足跡,因此在當今世界,隱私越來越受到關注。隱私的形式可能是我們在論壇注冊的信息、上傳到社交媒體網站的照片或視頻,甚至可能是我們的歷史瀏覽記錄。這些足跡的某些部分具有積極的性質,它是用戶心甘情愿地提供給第三方的信息,但令人驚訝的是,我們的數字足跡的很大一部分屬于我們的數字影子。數字影子本質上就是我們可能會在不經意間留下的數字足跡的一個子集。這些信息中有很大一部分是敏感的,并且有人擔心它可能會落入壞人之手?,F代加密技術在維護某些形式的敏感信息的方面做得很好,但有些數據類型和應用程序仍然難以得到保護。

4.2 敏感信息

敏感信息通常是指為了保護個人或組織的隱私安全,必須保護其免受未經授權訪問的數據。這些可以是與個人有關的個人信息、與組織有關的商業信息或者與政府機構有關的機密信息。從大眾的角度來看,重點關注的應該是個人可識別信息(PII)形式的個人信息,因為這些信息可用于追蹤個人,并可能對個人的人身財產安全造成傷害。以社保賬戶和銀行賬戶為詳細信息形式的(PII)信息,一般使用對稱加密技術將其鎖定在密碼墻后面,但圖像和視頻等媒體數據并不那么簡單。通常,保護媒體隱私信息的復雜性源于數據存儲實體需要訪問信息才能提供某些特征這一事實。例如,在社交媒體網站上自動標記用戶圖像,或者生物特征認證系統中需要訪問用戶的生物特征,以便將來進行匹配。事實上,生物特征數據是完全符合我們認為能夠確保安全的既具有高度敏感性、但又難以獲得的數據類別。

4.3 生物特征識別

生物特征識別(Biometrics)技術是一種通過計算機利用人體所固有的生理特征或行為特征來進行身份認證的技術。如圖2所示,生物識別數據通常分為兩種類型,生理和行為識別。生理識別技術包括我們的生物學特征,如面部識別、指紋和虹膜。行為識別技術通過我們的長期習慣來表現,例如我們的簽名、步態或者敲擊鍵盤的方式。通常,生理生物特征被認為是“硬”生物特征,更適合單獨使用,而行為生物特征被認為是“軟”生物特征,通常與其他形式的身份驗證結合使用。

指紋、虹膜、人臉、靜脈等生物特征,是人生來就具有的,并且具有唯一性,可以用來很精準地對一個人的身份進行識別判斷。同時,相對于密碼輸入,生物特征具有驗證便捷的特點。但是,這些生物特征數量少而且無法更改,一旦泄露就會存在安全風險。隨著指紋識別、人臉識別、語音識別等生物特征認證技術的應用,針對此類技術的攻擊模式也將不斷涌現。

4.4 特征模板的保護

生物特征模板保護的目標是以類似于保護文本密碼的方式來保護生物特征數據。由于原始生物識別數據無法像文本密碼一樣進行更改,因此其安全性至關重要。理想的生物特征模板保護算法應具有以下特性。

1.安全性。給定受保護的模板,提取其原始生物特征數據應該是不可行的。

2.可取消性。如果舊模板遭到破壞,可以從原始生物特征中生成新的保護模板。

3.性能。模板保護算法不應導致生物識別系統匹配性能(FAR和FRR)的損失。

值得注意的是,與使用模板非保護的算法相比,模板保護算法通常會導致匹配精度的損失。這導致模板安全性與生物認證算法的匹配準確性之間會有一個權衡。從安全性的角度來看,加密散列函數是生物特征模板保護算法的理想選擇,但是生物特征數據的某些屬性使基于散列法的安全性面臨很大的挑戰?;谏⒘械陌踩砸髲纳锾卣髦凶x取不同的數據所提取的模板之間進行精確匹配。由于生物特征數據在讀數之間顯示出顯著的內在差異,因此提取與之完全匹配的模板是非常困難的。甚至比特位單個的變化都會導致摘取的散列值有非常大的不同。另外,由于在散列取值被破壞的情況下無法更改生物統計數據,所以還需要以某種方式實現其可取消性。

盡管在實現基于散列的生物特征數據模板安全性方面存在困難,但還是提出了幾種方法。如圖3所示,生物模板保護算法大致可分為兩類:生物識別密碼系統和基礎特征的轉換。

4.5 算法綜述

我們歸納出已有研究中的一些將深度神經網絡在表征學習上的能力與信息理論的數據保護技術相結合的算法,其主要特征是:1)提供可證明的基于散列算法的安全模板;2)在確保安全性的基礎上將匹配精確度的損失降到最小;3)不使用外部密鑰。

總結了三種在受保護域中進行匹配的算法,每種算法的貢獻如下:

1)局部區域散列(Local Region Hashing)

(1)首先,基于密碼散列的模板保護算法不存儲特定用戶的數據。

(2)分析了不同特征提取器對基于散列的生物模板保護的適用性。

⑶提議建立共有信息的度量標準以量化攻擊者擁有的信息所導致的嫡損失。

2)深度安全編碼(Deep Secure Encoding)

(1)一種利用目標編碼解決特征空間均勻性問題的新模板保護算法。

(2)基于PIE和Multi-PIE的面部模板保護的最新成果。

⑶分析了使用簡單代碼(如MEB)進行目標編碼的利弊。

3)深度隨機散列(Deep Stochastic Hashing)

⑴從算法推廣到新類的能力的角度為該領域未來的研究奠定基礎。

⑵提議學習適用于隱私保護匹配的二進制表征的新損失函數。

⑶從隱私保護匹配的角度分析通過不同算法學習到的二進制表征。

需要注意的是,這些應用到生物識別中的隱私保護算法并非用于對外部攻擊者的識別,而是為了解決特征模板所存在的安全性與匹配精確度二者難以兼得的固有缺陷問題。

4.6 算法解析

4.6.1 局部區域散列(LRH)

局部區域散列算法背后的原理是評估特征提取器的適用性,以用于基于密碼散列的面部生物特征模板的保護。假設即使基于密碼散列的模板保護算法無法對從整個面部提取的特征進行精確匹配,但對于從面部局部區域提取的特征來說卻要容易得多。通過比較局部二進制模式(LBP)、定向梯度直方圖(HoG)和自編碼器堆疊學習的特征,發現像LBP和HoG這樣的人工制作的特征提取信息甚至比最簡單的表征學習形式還要糟糕,這促進了匹配精度和模板安全性兼顧的表征學習形式的研究。該算法的優點是沒有存儲用戶數據,沒有使用外部密鑰,并且所使用的特征不是特定于用戶的。缺點是由于較高的模板安全性導致了匹配精度的損失以及特征空間的不均勻性??傊?,該算法是對該問題的初步研究,為更好地解決該問題奠定了基礎。

4.6.2 深度安全編碼(DSE)

深度安全編碼算法的主要目的是直接解決均勻性問題。它被設計了理想的模板安全性功能,并利用深度卷積神經網絡(CNN)學習到它的映射,進而完成預定的目標。理想的特征是隨機生成的用戶代碼,我們稱之為最大嫡二進制(MEB)代碼。由于這些是按位隨機生成的,因此它們具有最大的嫡,這使得對散列碼的暴力攻擊的搜索空間非常大。一旦CNN被訓練用來學習從用戶的注冊樣本到MEB碼的映射,它的性能就會泛化,從而為已注冊用戶的其他樣本生成相同的代碼。該算法具有較高的模板安全性,在容錯率(FAR)<=1%,真實接受率(GAR)>95%時,達到了最先進的匹配性能。該算法的優點包括:散列的特征空間均勻統一、模板安全性和匹配精度最為先進,以及顯示模板的安全性和匹配精度在同一方向上的理論聯系增加了。該算法的主要缺點是CNN僅針對已注冊用戶進行訓練,而不能推廣到新用戶,因此,新用戶注冊時需要重新訓練神經網絡。

4.6.3 深度隨機散列(DSH)

深度隨機散列算法為解決深度安全編碼算法中新用戶注冊時重新訓練的問題而誕生。它的思想是學習使用深層CNN的與類無關的二進制編碼器,然后使用密碼散列函數對這種編碼進行散列處理以產生受保護的模板。該算法使人能夠從學習到的二進制表征中確定所需的屬性,并將重點放在了神經網絡產生無須重新訓練即可推廣到新類表征的能力上。深度安全編碼的思想是設計一個三部分組成的損失函數,該函數考慮了表征的每個理想屬性,即類分離,均勻性和對爬山攻擊的抵抗力。它的三部分包括傳統的“Triplet Loss”損失函數,以及非均勻性和隨機邊緣部分。進行的實驗比較了深度隨機散列與深度安全編碼的性能,以及在深度隨機散列中使用三部分損失函數的各個組成部分之間學習的表征形式,進而發現擬定的損失函數確實可以推廣到新類別,并且學習了適合我們目的的表征形式。然而,評價指標的改進卻顯得微不足道,這表明可能需要進一步試驗更大的數據池。這項工作作為未來方向的初步研究,為相對較新的表征學習領域的隱私保護匹配奠定了基礎。

4.7 現實意義

綜上所述,將深度學習領域取得的最新進展中的優點引入到生物特征模板保護領域,開辟了一個相對較新的用于隱私保護匹配的表征學習領域。提出的算法“深度安全編碼”已經實現了最先進的匹配性能和面部模板安全性,并突出了所聲明的有效性。這些發現以利用深度學習算法的其他形式將算法思想擴展至新的生物特征識別技術,為生物特征模板保護領域的發展帶來了新的機遇。這樣的基礎研究,著重強調用戶數據的保護,同時最大限度地減少與降低匹配精度有關的開銷,對于很多方面都是有益的。在為模板提供保護的同時,匹配精度的下降是阻礙生物識別身份驗證如面部或者指紋解鎖等應用程序接受更高標準的模板保護的主要原因之一。實現可驗證的模板安全性標準,同時使匹配精度損失最小的算法的開發,不僅鼓勵數據存儲實體接受更高保護標準的用戶隱私,而且不會降低其提供的服務質量。另外,上述算法不需要任何秘密密鑰或有關算法內部工作的隱藏信息,因此可以公開。這樣做可以提高用戶對這些技術的信任度,因為可以切實地保護它們的數據,使得匹配用戶敏感數據的技術更廣泛地被接受。最后,算法的應用范圍超出了生物特征識別認證的領域,而且前文所介紹的概念可用于各種隱私匹配的保護?;蛟S,此項研究能夠引起人們對尚未考慮隱私保護但在不久的將來可能具有重要意義的新領域的興趣,例如自動面部標記、圖片密碼、網絡瀏覽模式分析、情感分析等[5]。

5 結束語

本文以隱私保護為例深度闡述了機器學習在網絡安全中的應用。首先介紹了機器學習的相關概念與基本原理,其次聲明了機器學習在網絡安全中應用的重要意義,隨后又梳理了機器學習在網絡安全研究中的應用流程,最后詳細解析了在隱私保護領域怎樣通過機器學習克服生物特征識別中安全性與匹配精確度之間相互約束的難題,并歸納總結了三種解決此類問題的算法??梢钥隙ǖ氖?,在隱私保護之外的其他網絡安全領域中,機器學習也能為相關問題的解決提供幫助。未來,機器學習一定能夠在網絡安全領域發揮更大,甚至是中流砥柱的作用!

參考文獻:

[1] 周志華.機器學習[M].北京:清華大學出版社,2016:1.

[2] 彭彥鑫.機器學習、深度學習與網絡安全技術[J].計算機產品與流通,2018(4):66.

[3] 劉金鵬.基于機器學習技術的網絡安全防護[J].網絡空間安全,2018,9(9):96-102.

[4] 張蕾,崔勇,劉靜,江勇,吳建平.機器學習在網絡空間安全研究中的應用[J].計算機學報,2018,41(9):1943-1975.

[5] Rohit Kumar,Pandey.Privacy Preserving Representation Learning using Deep Neural Networks[D].University at Buffalo,the State University of New York,2017.

[通聯編輯:代影]

猜你喜歡
隱私保護機器學習網絡安全
網絡安全
網絡安全人才培養應“實戰化”
上網時如何注意網絡安全?
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合