?

開放共享環境下城建檔案數據脫敏系統研究與設計

2021-07-28 15:07袁紹晚
檔案與建設 2021年6期
關鍵詞:城建檔案

袁紹晚

摘 要:數據脫敏是數據治理的重要內容。文章在數據脫敏概述與文獻研究的基礎上,指出城建檔案數據脫敏系統建設路徑包括5個步驟:數據脫敏戰略化、分類分級標簽化、脫敏策略標準化、脫敏目標元數據化和脫敏流程智能化,并總結了6個脫敏關鍵技術:傳統脫敏技術、文本分類技術、CAD二次開發技術、GIS二次開發技術、內容識別技術和數據可視化技術,最后對脫敏系統進行功能設計。

關鍵詞:城建檔案;數據脫敏;脫敏技術

數據開放共享已成為國家治理戰略的重要組成部分。近年來,國家層面印發一系列政策文件,對數據開放共享進行宏觀部署和頂層設計。在數據開放共享過程中,城建檔案數據作為政務數據的重要組成部分,在釋放數據紅利的同時,也面臨著數據泄露或遭黑客攻擊等安全風險,其中的敏感數據一旦發生泄露,將會給政府、社會和個人帶來較大負面影響,甚至造成經濟損失。因此,在數據開放共享環境下,如何在保障數據供給質量的同時,防止敏感數據泄露,已經成為檔案管理部門亟待解決的問題。

數據脫敏是數據治理的重要內容,是一項保障數據安全的基本技術。大量實踐案例和文獻研究已經證明,數據脫敏技術在保護個人隱私數據、防止數據泄露方面具有獨特的技術優勢。

一、 數據脫敏概述

數據脫敏又稱數據去隱私化或數據變形,是在給定的規則、策略下對敏感數據進行變換、修改的技術機制,能夠在很大程度上解決敏感數據在非可信環境中使用的問題[1]。數據脫敏流程分為敏感數據分類分級、脫敏策略制訂、脫敏目標確認、數據脫敏與分發、脫敏數據審計與監管等環節。在脫敏實現方式上,可分為靜態數據脫敏和動態數據脫敏。

以“數據脫敏”為主題在中國知網進行檢索,發現目前研究成果主要集中在以下方面:脫敏數據類型方面,已由結構化數據脫敏拓展至非結構化數據脫敏,如文本內容[2]、圖像內容[3]、矢量地理數據[4]等;脫敏技術發展方面,諸如機器學習[5]、數據智能分類技術[6]、人工智能技術[7]等智能化數據脫敏技術日趨成熟;行業應用方面,脫敏技術已在政府數據[8]、證券期貨[9]、電信運營[10]等行業領域得到廣泛應用。

二、城建檔案數據脫敏中存在的問題

城建檔案數據不僅包括了政府部門在工程建設項目審批過程中形成的政務數據,還包括了建設單位在生產施工過程中產生的建設項目數據。因此,城建檔案數據積累、沉淀和匯聚了大量隱私、敏感數據。目前,城建檔案數據脫敏主要存在以下問題:數據脫敏無序,沒有納入數據治理的全生命周期管理;數據資產模糊,沒有脈絡清晰的分類體系;脫敏策略歧義,沒有定義明確的執行標準;脫敏目標隨機,沒有全面完整的數據模型;脫敏操作傳統沒有自動智能的工具手段。

三、城建檔案數據脫敏系統建設路徑

城建檔案數據脫敏系統建設應當堅持總體國家安全觀,以《中華人民共和國檔案法》《中華人民共和國網絡安全法》《中華人民共和國數據安全法》等為法律依據,在國家數據治理的頂層設計下有序推進。同時,結合城建檔案數據的特點,有針對性地引入大數據等信息技術,開展數據脫敏工作。

1. 數據脫敏戰略化

國家數據治理的頂層設計是城建檔案數據脫敏工作的遵循原則和戰略目標。在實踐中,要充分認識到城建檔案數據具有政務數據和檔案數據雙重屬性,一是要融入國家大數據資源統籌發展工程和政府治理大數據工程[11],二是要融入新時代新成就國家記憶工程和檔案信息化強基工程[12]。

2. 分類分級標簽化

數據分類分級是數據治理工作的核心任務?!吨腥A人民共和國數據安全法》明確規定,國家建立數據分類分級保護制度。城建檔案的分類分級體系有項目性質分類法、文件密級分級法和著錄數據分級法。大數據的核心價值通過標簽數據的多樣應用得到充分體現[13],在城建檔案分類分級工作中,引入數據標簽類目體系,能滿足不同業務場景下數據脫敏需求,多維度體現數據業務價值。

3. 脫敏策略標準化

數據脫敏策略標準是脫敏系統建設的基礎。依據《信息安全技術個人信息安全規范》(GB/T 35273-2020)等數據安全類標準,脫敏策略標準制訂應以滿足落地執行為出發點,覆蓋城建檔案數據生命周期,包括策略發布流程、策略術語定義、脫敏通用原則、脫敏操作方法、數據訪問規則等內容,用于指導敏感數據的管理和保護。

4. 脫敏目標元數據化

元數據是數據脫敏系統建設的中心內容。廣泛采集城建檔案的業務元數據、技術元數據和管理元數據,建立動態、開放、集成的脫敏目標元數據存儲庫,不僅能夠精準繪制敏感數據的全景視圖,建立統一的數據表達形式,還能方便敏感數據的靈活交互和縱橫擴展,實現從業務層到技術層的互聯互通。

5. 脫敏流程智能化

智能化是脫敏系統建設的關鍵績效指標。大數據時代將數據脫敏流程與人工智能的自主學習和強大的數據分析能力相結合,實現易學習、免配置、自動脫敏和自適應脫敏算法等功能[14],可以滿足優化營商環境對城建檔案敏感數據供給提出的時效、質量、能力等政策要求和考核評估。

四、城建檔案數據脫敏關鍵技術

城建檔案業務主題數據的文件格式包括結構化文件、文本文件、圖像文件、CAD文件、GIS文件等。針對不同的文件格式,要采用不同的數據脫敏技術。

1. 傳統脫敏技術

結構化文件表現形式為關系型數據庫的數據表,字段類型可分為字符型、數值型、日期型等。這些字段的內容可以使用傳統脫敏技術如替換、無效化、置亂、均值化、偏移、加密等脫敏算法進行數據脫敏。例如,在瀏覽特定區域內某個建設項目的用地面積時,可以將詳細地址置亂為特定區域,將建設單位加密為消息摘要值,用地年限替換為長期等。

2. 文本分類技術

城建檔案中存在大量的電子文本文件,如政府批文、地質勘察報告、監理文件等,利用文本分類技術,通過多次對適度規模敏感詞訓練集的測試、優化,建立敏感詞特征庫,并以此為基礎,通過自適應學習算法完成文本文件內容脫敏工作。

3. CAD二次開發技術

城建檔案中有大量由計算機輔助設計(Computer Aided Design,CAD)技術生成的DWG格式電子文件,如建筑安裝工程竣工圖、市政基礎設施工程竣工圖等。通過AutoCAD進行二次開發,使脫敏系統具有CAD數據脫敏功能,可以對敏感圖層、敏感實體、敏感圖形和敏感屬性等進行自動脫敏,脫敏操作通常是不可逆、去關聯的,如刪除、隱藏、變形等。

4. GIS二次開發技術

GIS二次開發技術主要用于地理數據脫敏。地理數據屬于高敏感級數據。地理空間數據的脫敏較復雜,需要通過GIS的二次開發,在已有的GIS平臺中開發專門的地理數據脫敏功能,涉密屬性信息或高敏感級數據多通過地理要素及屬性刪除法脫密[15]。

5. 內容識別技術

隨著數字化設備的廣泛應用,城建檔案包含了大量的紙質檔案數字化副本影像文件、照片文件和視頻文件。人工手動脫敏方法已遠遠不能滿足檔案利用現實需求。利用圖像內容識別技術進行圖像數據內容識別、數據加密并進行敏感信息模糊化等手段[16],不僅能快速完成對圖像文件中敏感數據的自動脫敏,還能全面滿足各種利用工作場景的業務需求,為高效、準確地開展數據保護工作提供有力支撐。

6. 數據可視化技術

數據可視化旨在借助圖形化手段,清晰有效地傳達與溝通信息。在“公開為常態、不公開為例外”的信息公開政策要求下,將結構化數據如建筑面積、用地面積、車位數、綠地率、容積率等,以柱狀圖、折線圖、餅圖等圖形方式進行直觀表達,不僅達到了政策要求,還實現了數據泛化脫敏處理。

五、城建檔案數據脫敏系統功能設計

城建檔案數據脫敏系統功能包括數據請求、數據審計、目標識別、策略匹配、數據訪問、數據脫敏、脫敏驗證和數據封裝等(見圖1)。

1. 數據請求

用戶根據自身數據需求,通過網頁瀏覽器、移動設備、數據接口等方式向脫敏系統發出數據請求。

2. 數據審計

數據審計是在接受到數據請求后和作出數據響應前對相關內容進行審計。在接受到數據請求后,審計內容包括:用戶權限、身份角色、請求設備和訪問協議等。在作出數據響應前,審計內容包括:脫敏數據的合規性、安全性,問題回溯等。

3. 目標識別

目標識別用于敏感數據識別。數據識別是在元數據庫、敏感信息庫的相互協作下完成。其中,敏感信息庫來源于機器學習對不同文件格式的敏感數據訓練集的特征值。機器學習過程并不是一次性完成,而是要不斷地進行人工標注和調整。

4. 策略匹配

策略匹配用于數據脫敏策略標準的匹配和管理。脫敏策略標準是在脫敏過程中貫徹的規則、規范、方法和限制的統稱,主要內容來源于業務領域的知識庫、工程建設的規則庫、機器學習的算法決策庫及人工配置的規范文本等(見圖2)。

5. 數據訪問

數據訪問分為結構化數據訪問和非結構化數據訪問。結構化數據訪問步驟包括數據源連接、數據表打開、字段記錄提取等。非結構化數據視不同的文件格式執行不同的操作:文本文件、CAD文件和圖像文件等直接從文件服務器中加載解析;地理數據在GIS平臺中提取圖層數據和要素數據。

6. 數據脫敏

數據脫敏是在數據分級、脫敏策略的共同約束下,對目標數據集采用適當的脫敏算法和脫敏技術進行脫敏操作。數據脫敏是脫敏全生命周期中的關鍵環節,脫敏算法的復雜度、脫敏技術的匹配度會直接影響數據脫敏質量和效果。

7. 脫敏驗證

脫敏驗證是對脫敏后的數據從完整性、一致性和關聯性三個方面驗證脫敏數據的利用價值是否得到延續。以脫敏后的地理數據集為例,包括地物編碼的組成要素是否齊全完整,空間坐標精度是否與坐標元數據描述一致,各地物間的拓撲關系是否相互關聯。

8. 數據封裝

數據封裝是指采用數字簽名等安全技術防止脫敏數據被偽造或篡改,保證數據在整個生命周期中有效傳遞和安全傳輸。通過數據封裝,數據請求者在接收到脫敏系統的響應數據后,能及時確認脫敏數據來源合法性和完整性,防止傳輸中的抵賴和欺詐。

城建檔案數據脫敏在具有通用數據脫敏特點的同時,又具有較強的專業性。

隨著建筑信息模型數據加入,勢必對城建檔案數據脫敏提出更高要求。僅從技術層面對城建檔案數據脫敏進行研究,并不能實現真正意義上的數據脫敏,還要更多地從法律層面、文化層面進行研究,為城建檔案數據脫敏創造更好的數據治理環境和氛圍。

*本文系2020年度國家檔案局科技項目“‘互聯網+政務服務背景下廣州建設項目檔案數據治理研究”(項目編號:2020-X-77)階段性研究成果。

注釋與參考文獻

[1]陳天瑩,陳劍鋒.大數據環境下的智能數據脫敏系統[J].通信技術,2016(7):915-922.

[2]李偉偉,張濤,林為民等.基于文本內容的敏感數據識別方法研究與實現[J].計算機工程與設計,2013(4):1202-1206.

[3][16]田菁菁,葉紫光,許慧云.基于圖像內容識別技術敏感數據分析[J].通訊世界,2020(1):133-134.

[4][15]李安波,吳雪榮,解憲麗等.精度可控的矢量地理數據脫密方法[J].中國礦業大學學報,2016(5):1050-1057.

[5]王鑫,王電鋼,母繼元等. 基于機器學習的數據脫敏系統研究與設計[J].電力信息與通信技術, 2018(1):33-38.

[6]徐建忠,張亮,李嬌嬌.數據智能分類技術在數據治理中的應用研究[J].信息安全與通信保密,2016(6):88-90.

[7]駱京.基于人工智能技術的內容識別系統設計[J].現代電視技術,2018(7):112-115.

[8]王毛路,華躍.數據脫敏在政府數據治理及開放服務中的應用[J].電子政務,2019(5):94-103.

[9]王浩宇,劉超,蔣東興.證券期貨監管數據脫敏方案研究與實踐[J].金融電子化,2019(3):36-38.

[10]姜日敏.電信運營商數據脫敏系統建設方案探討[J].中國科技信息,2014(8):132-133.

[11]中國政府網.國務院關于印發促進大數據發展行動綱要的通知[EB/ OL].[2015-09-05].http://www. gov.cn/zhengce/content/2015-09/05/ content_10137.htm.

[12]國家檔案局.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].[2021-06-08].https:// www.saac.gov.cn/daj/yaow/202106/89965 0c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[13]付登坡,任寅姿,孫少憶等.數據中臺[M].機械工業出版社,2020:158-158.

[14]王紅凱,龔小剛,葉衛等.大數據智能下數據脫敏的思考[J].科技導報,2020(3):115-122.

猜你喜歡
城建檔案
淺談城建檔案管理現狀與問題分析
對城建檔案的社會文化價值的探析
基于Web Service的城建檔案信息共享平臺
基于知識管理視閾的城建檔案管理問題研究
如何做好城建檔案的保密與利用
大數據時代的城建檔案信息系統構建問題研究
淺析城建檔案管理工作的重要性
關于創新城建檔案行政監管的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合