?

基于區塊鏈數據保護機制的電子病歷設計

2021-07-19 22:54肖麗鄧星月顏楨羿王金全羅掬月溫川飆
電腦知識與技術 2021年14期
關鍵詞:電子病歷隱私數據

肖麗 鄧星月 顏楨羿 王金全 羅掬月 溫川飆

摘要:目的:旨在對電子病歷不同隱私等級的數據進行保護,解決醫院與患者雙方身份認證的難點,達到對電子病歷數據全方位防護的目的,并結合現狀對電子病歷信息的進行分類,論述數據的不同隱私等級;過程及方法:解析針對不同隱私等級電子病歷數據的簽名設計,深入剖析電子病歷的轉碼方式,最終闡述利用區塊鏈技術將用戶雙方(醫院與患者)產生“交易”的每一個節點全部上鏈。結論:提出了基于區塊鏈數據保護機制的電子病歷設計,保與電子病歷相關的每一個環節的安全,為用戶的身份認證加上了一道防御鎖。

關鍵詞:隱私;區塊鏈;信息上鏈;電子病歷;數據

中圖分類號:TP311? ? ? ?文獻標識碼:A

文章編號:1009-3044(2021)14-0245-04

Abstract :Objective:To protect the data of different privacy levels of electronic medical records, solve the difficulty of identity authentication between hospitals and patients, and achieve the purpose of all-round protection of electronic medical records data.This paper analyzes the signature design of electronic medical records data with different privacy levels,Process and Methods: deeply analyzes the transcoding mode of electronic medical records, and finally expounds the use of? Blockchain technology to connect all the nodes of the "transaction" between users (hospitals and patients).Conclusion: the design of electronic medical records based on Blockchain data protection mechanism is proposed, which guarantees the security of every link related to electronic medical records and adds a defensive lock for user's identity authentication.

Key words: privacy; block chain; information chain; electronic medical records; data

隨著區塊鏈技術的發展以及人們對個人隱私信息的重視,隱私數據保護顯得尤為重要。數據的價值日益增長,各類數據的交易也層出不窮;例如某些研究機構或者公司需要對購買一些真實有效的數據信息投入到其研究的某一領域去時,其本身能夠采集到的數據是遠遠不夠的,所以購買數據成了一個必要之路。根據相關法律規定,如要實現科學研究,需要對其中的隱私信息進行隱匿。電子病歷相較于其他數據記錄了更多的多個人隱私數據,并且這類隱私往往牽涉甚多,對其隱私數據進行完全防護是十分有必要的,而在電子病歷中可公開信息只要能保證其不可篡改便既可以使得數據買賣交易的正常進行,又能達到保護隱私的目的。

1 區塊鏈的發展

隨著區塊鏈相關技術的不斷成熟,區塊鏈所蘊含的商業價值不斷被發掘。習近平主席于2018年5月28日舉行的中國科學院和中國工程院兩院大會中明確指出:“以人工智能、量子信息、移動通信、物聯網、區塊鏈為代表的新一代信息技術加速突破應用……世界正在進入以信息產業為主導的經濟發展時期?!盵1]。根據中國知網顯示,2017年區塊鏈相關文獻共計1630篇,2018年達到3870篇,2019年第一季度已有832篇相關文獻。區塊鏈技術去中心化和去信任化的特性,令以往醫療電子病歷溯源與傳輸難題得以解決,目前深圳市衛健委與平安國際智慧城市科技股份有限公司就醫療衛生行業的數據管理服務(囊括區塊鏈服務)達成合作協議,MIT研發的基于以太坊的電子病例的系統—MedRec業已成熟。然而,區塊鏈數據儲存不同于傳統SQL數據庫,醫療電子病歷若儲存于區塊鏈中,需要就數據可讀性、檢索能力以及隱私保護進行改良,目前對于針對區塊鏈儲存設計的電子病歷模型研究尚未普及,探討和建設相關電子病歷模型具有開拓性意義。

2區塊鏈電子病歷模型

電子病歷與區塊鏈隸屬兩個不同的技術方,兩者的相互運用——電子病歷在區塊鏈上進行分布式儲存,需滿足一定的兼容條件,即可讀性、匿名性、可檢索性三大特性。

2.1 可讀性

電子病歷的可讀性主要體現在其對十六進制的接受能力。區塊鏈技術始于比特幣,至今多數公有鏈延續比特幣對十六進制數據的讀寫能力。一份電子病歷若有上鏈需求,則需要對數據進行轉碼。而相對于計算機常用的二進制,十六進制更為簡潔,則選擇十六進制轉碼是必然的。SHANGPING WANG 等基于區塊鏈技術,搭建了分布式存儲系統中細粒度訪問控制的數據共享框架[2-3]。針對圖片數據轉碼經十六進制轉碼后數據量將會隨圖片質量及大小呈不同幅度增長的問題——這對網絡帶寬和驗證節點具有較高要求,后文將提出基于分布式儲存縮減實際數據的解決方案。

使用十六進制轉碼的大前提是電子病歷對十六進制的可讀性,除此以外,不同醫院終端的電子病歷格式不盡相同,文件修改成本較高,但統一醫療病歷格式將有助于數據轉碼后閱讀與自動審閱。

2.2 匿名性

在評價系統中,在其他方面成為評價者的被評價者,就有成為惡意攻擊者的可能,從而使評價失去客觀性[4],與評價系統相似,區塊鏈的匿名也是將交易雙方身份進行半匿名操作,并且每一次“交易地址”均為新地址——無法通過地址來追溯某一特定評價人,但區塊鏈技術能夠依靠密碼學和分布式算法在不借助于任何可信第三方機構的情況下用數學方法使參與者達成共識[5]。再者,患者的病歷信息屬于隱私范疇,非醫療機構與醫療機構也需要在獲得患者或相應政府機關許可才可進行查閱;為防止病毒或間諜軟件利用醫患對電子病歷數據的調用過程獲取患者的隱私信息,交易匿名也成為必然。由于區塊鏈隸屬于中心化網絡,網絡內節點擁有相似權力,為保證不必要的隱私泄露,有必要對其中數據進行加密——即數據進行偽裝達到數據匿名的目的。加密方式有諸多選擇,不論是使用非對稱加密的ecdsa算法,或者對稱加密的AES算法,均有良好的加密解密能力。根據實際情況常利用兩種加密方式混用進行設計。

各類電子病歷信息上鏈多以交易形式發送,對于網絡而言,交易的匿名性最為重要——此項涉及用戶的信息私有性問題,上文所提到的交易匿名設計隸屬于區塊鏈平臺設計,本文暫不進行討論。

2.3 可檢索性

電子病歷除了用作記錄患者就診信息外,也是流行病學研究與臨床試驗研究的重要數據來源。上鏈信息若單一強調匿名性將喪失研究助力作用。簡單設計上,一份病歷可帶上數個標簽,對于標簽進行關鍵詞檢索將能迅速定位某一病歷,既能方便患者院方定位就診經歷,也可對流行病學和臨床試驗提供良好的數據資料,當然在其發揮其可檢索性時,也需利用上述兩點對隱私數據進行適當隱匿。上述如圖1:區塊鏈電子病歷模型。

3 區塊鏈電子病歷模型

電子病歷數據在經過收集后,需要對其中的數據進行分類處理。由于區塊鏈網絡中的全節點有遍歷所有區塊數據的能力,病歷數據不經分類處理直接上傳到區塊鏈網絡中勢必會引起諸多隱私問題。但如若將病歷數據完全加密,加密后的數據將不能滿足檢索與統計的需求。為此將病歷數據中隱私部分與公開部分進行分離,可以在不造成隱私泄露問題的同時,滿足對病歷數據的檢索與分析需求。

3.1非隱私數據

根據《電子病歷基本規范》第十一條規定電子病歷系統應當建立個人信息庫包括姓名、性別、出生日期、民族、婚姻狀況、職業、工作單位、住址、有效身份證件號碼、社會保障號碼或醫療保險號碼、聯系電話等,其中姓氏、性別等屬于非隱私數據,非隱私數據是指他人獲取的信息從各個角度而言對信息擁有者無影響,信息獲取者也無法從此類信息中得知特定的一人。舉例來說,在不經過患者途徑而由醫療機構直接通過合法數據買賣交易的情況下,電子病歷中的病種、治療方法、姓氏以及性別等可以同時提供給另一交易方,這些數據信息整合在一起是無法特指某一個人的,因此稱此類信息為非隱私數據。從患者角度來看,上述數據依然能被稱為隱私數據,但隱私數據會不同程度地受到公共利益的影響而成為非隱私數據。

3.2隱私數據

在某種程度上,未公開的電子病歷信息均可稱為隱私數據,此類數據是個人不愿公開,且不愿被他人知曉的信息。電子病歷上的數據大多屬于個人信息,而個人信息大多是隱私數據,是與公共利益無關的一類,并且當其死亡之時也不可隨意泄露?!?018年政務公開工作要點》提出對于其他涉及個人隱私的政府信息公開時,要標識化處理,選擇恰當的方式和范圍[6],據此便可得到隱私信息需要標識化處理這一數據保護設計點。

4分類數據加密

電子病歷數據隱私內容與公開內容各有不同的隱私需求,根據隱私需求的不同,需對電子病歷數據進行差異化處理。

4.1 可公開文本數據處理

此類數據在信息泄露問題上基本可忽略,只需將其格式標準化再做簡單處理即可。以太坊支持在交易中帶入十六進制數據,并可以通過區塊瀏覽器將十六進制信息轉UTF-8格式來顯示交易附屬信息。以太坊的此種設計被諸多區塊鏈產品所借鑒,如今支持智能合約的公有鏈均可通過此種方式將數據寫入區塊鏈中。對于病歷數據的處理以以太坊為例,對記錄的病歷信息中非敏感信息(例如姓名、病種、治療方法等)以UTF_8方式編碼,對于不支持該編碼方式編碼的數據則進行十六進制轉換。上述信息在刪除冗余后,統一進行十六進制轉換,并利用hash算法對數據進行操作,與斯坦福的pwdhash(即將用戶的密碼替換為密碼和網站域結合在一起的散列,雖然用戶只記住一個密鑰,但每個站點收到的密鑰都是唯一的[7])不同,我們以SHA-256算法(SHA256(SHA256(version+prev-hash+merkle-root+ntime+nbits+X))

4.2 隱私文本數據處理

與可公開文本數據不同的是,該類數據涉及個人隱私權限,其有必要先進行加密處理后再做其他處理。該類數據以UTF-8編碼后轉為二進制,進行一次AES加密(通過干流水段對輪函數進行劃分,流水段不同選擇的并行密碼是不同的,將多個輪函數同時運行,可以使輪函數更加快速地執行)[11],其中分布式AES加密方式通過使用切片算法對大數據文件進行分割,得到能夠獨立執行AES加密算法的數據分片[12],且加密密鑰由信息上傳者所擁有。加密后的信息則在十六進制轉碼后做好上鏈準備。由于該信息已進行至少一次AES加密,則只需保證加密密鑰不被泄露。數據上鏈后,其他用戶想要窺得數據內容將具有很高難度。如需提高加密程度,可選用匿名性更高的零知識證明加密法。

4.3 圖片數據處理

對于病歷信息中的圖片數據,由于目前公鏈中沒有超文本傳輸協議相關設計,不支持對圖片數據進行編碼后傳輸。故現階段可采用尋址儲存方式作為替代選項。目前已有完善的開源尋址儲存項目如IPFS、MaidSafe等。在上述技術的基礎上,通過加入節點準入證明構建聯盟鏈,構建分布式流媒體節點——通過一致性哈希重新設計了數據并行和模型分片方案,使系統能夠適應數據流環境和集群計算能力的動態變化[13-15],如此便可簡便地搭建一個受監管的尋址儲存網絡。將圖片上傳至尋址儲存網絡后將返還定位該文件的唯一哈希值,此哈希值可經過十六進制轉碼后發送至區塊鏈中,如圖片數據涉及敏感數據,可對上鏈哈希值進行一次加密計算,增強數據的匿名性。

5電子病歷“交易”上鏈

通過對病歷采集數據的三方面處理,所有的病歷數據已轉碼為十六進制以符合以太坊數據格式。轉碼電子病歷在保持原有內容結構的基礎上,以交易附屬信息形式附于交易中,當用戶完成此筆交易,經過足夠多的區塊確認后,病歷數據即完成上鏈。用戶若需查詢某一具體病歷數據,可通過兩種方式。一是以交易哈希進行定位,查詢某一具體的病歷數據;二是通過對全區塊數據中某一關鍵詞的十六進制進行檢索。后者亦可在病歷數據規范的前提下完成對含有某一關鍵詞的病歷數據的檢索。對于上鏈數據如需進行下載,逆向進行轉碼與加密過程即可還原電子病歷。

6 結束語

本文提出身份信息半匿名的電子病歷以適應區塊鏈分布式存儲,且還需具有可讀性以及可檢索性的電子病歷在區塊鏈分布式存儲上有實際價值。文中隱私數據保護機制針對不同層次的信息進行差異劃分,并采用不同加密等級的方式加密,在對加密后數據十六進制轉碼后均進行上鏈準備,最終當足夠數量的區塊得以確認則將完成上鏈。最后,對于目前區塊鏈在電子病歷上的應用問題,還需從用戶實際需求出發,以便尋找各類實際應用問題。

參考文獻:

[1] 張銀平.對區塊鏈的幾點認識[J].求知,2018(10):42-43.

[2] Wang S P, Zhang Y L. A blockchain-based framework for data sharing with fine-grained access control in decentralized storage systems[J].IEEE Access,2018,6:38437-38450.

[3] 琚春華,鄒江波,傅小康.融入區塊鏈技術的大數據征信平臺的設計與應用研究[J].計算機科學,2018,45(S2):522-526,552.

[4] 郭瑤.區塊鏈理念高職教學評價學徒制改革策略[J].中國管理信息化,2019,22(3):219-221.

[5] MORRIS D Z.Leaderless,blockchain-based venture capital? fund raises $100 Million,andcounting[J/OL].Fortune,2016(5):1-5.http://fortune.com/2016/05/15/leaderless-blockchain-vc-fund.

[6] 湯琪.國務院要求保護個人隱私指令下達后,多地政府網站仍有泄露[N].澎湃新聞,2018-05-06.

[7] Llewellyn-Jones, David Rymer, Graham Matthew.PwdHash:ABruteforce Attack on Client-side Password Hashing[J].Lecture Notes in Computer Science,2017.

[8] 高杰.SHA256加密算法在比特幣中的關鍵作用研究[J].納稅,2017(28):142.

[9] 冷迪.一種基于哈希散列技術進行文件對象存儲和檢索的方法——海量文件系統數據訪問和檢索性能加速研究[J].中國新通信,2018,20(23):106-107.

[10] Bustio-Martínez L,Letras-Luna M,Cumplido R,et al.Using hashing and lexicographic order for Frequent Itemsets Mining on data streams[J].Journal of Parallel and Distributed Computing,2019,125:58-71.

[11] 張舜標.基于密碼流處理器的AES算法軟件流水實現[J].信息技術與信息化,2018(6):54-56.

[12] 廖建飛,莫太平,黃進財.數據分塊并行優化的分布式AES加密算法[J].科技通報,2017,33(5):102-105.

[13] 叢義昊.基于數據流的分布式實時推薦算法的研究與實現[D].北京:北京郵電大學,2018.

[14] 戴卓臣,陸江東.面向數據加密的多核多線程并行研究[J].電子設計工程,2018,26(8):183-187.

[15] 汪曙光,蘇亮亮,王琨,等.基于多比特量化的哈希方法[J].傳感器與微系統,2018,37(12):5-8.

【通聯編輯:王力】

猜你喜歡
電子病歷隱私數據
數據安全事件頻發 “隱私”何處安放?
淺談計量自動化系統實現預購電管理應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合