?

醫療影像數據傳輸的智能優化方案

2023-02-12 15:13胡佳迎王奕何萍
中國醫療器械雜志 2023年1期
關鍵詞:肺葉傳輸醫生

【作 者】 胡佳迎,王奕,何萍

1 復旦大學附屬腫瘤醫院,上海市,200032

2 上海申康醫院發展中心,上海市,200041

0 引言

醫療衛生數據是患者在就醫過程中產生的數據。近年來,隨著大數據技術和互聯網技術在醫療領域的廣泛使用,醫療衛生信息化建設進程不斷加快,醫療數據的類型和規模也以前所未有的速度迅猛增長。同時,醫療資源稀缺、醫療資源配置不均等醫療供給側問題日益凸顯,以數字技術和人工智能賦能,通過智慧醫療、遠程醫療、線上會診使得患者無論何時何地,均可接受專家會診,從而縮短救治時間、降低醫療費用。這樣的互聯網醫療建立了一種醫學專家和患者之間的全新服務模式,可以有效解決部分醫務人員技術水平偏低、醫療資源短缺、供給配置不充分不平衡等一系列問題[1],緩解醫療供需矛盾,推動醫療行業的供給側改革。醫療數據的壓縮與傳輸[2-3]是實現遠程醫療、線上會診以及互聯網醫院的重要所在。然而,這樣大規模、大體積的影像數據在傳輸過程中會出現速度慢、效率低、網絡資源占用率高等問題。在已有診斷報告的情況下,如何高效、快速且安全地在不同的平臺系統中傳輸數字醫療影像,成了減少患者等待時間、提高醫生診斷效率、推動醫院數字化進程需要解決的問題,也是推動全國各醫療機構醫療信息共享、醫療數據互聯互通面臨的主要困難之一。

現有的醫療影像傳輸優化方法主要分為兩種。一是直接對影像數據進行壓縮,傳輸壓縮后的影像數據,最終在終端進行解壓、還原,包括有損壓縮和無損壓縮。這種方法雖然簡單方便,且有損壓縮方法壓縮比很高,不可避免地會在壓縮、解壓的過程中造成數據損耗,降低圖像質量,對醫生的診斷造成影響,而無損壓縮方法壓縮比較低,即壓縮后傳輸速度很難有大的提升。二是將影像分割為子影像數據,分開傳輸,最終在終端還原,在傳輸過程中可對子影像數據進行優先級劃分,優先傳輸關鍵的子影像。例如:

(1)通過模式識別或者基于圖像特征的圖像處理方法提取出感興趣區域圖像,將其作為第一優先級圖像傳輸,然后將整體壓縮[4-5]圖像作為第二優先級圖像傳輸,并對第一優先級圖像替換顯示,最后將原始圖像傳輸。但是由于醫療影像差異性大,根據統計先驗來提取感興趣區域無法做到很好的泛化性能和精準性能。

(2)根據人為設定關鍵區域或者醫生閱讀習慣來抽取關鍵區域依次進行傳輸的方法。但不同的醫生閱讀習慣不同,很難做到收集每個醫生的閱片習慣并按優先級排序。

(3)將影像數據與患者的電子病歷相結合,根據不同位置在病例中出現的詞頻對其打分來確定傳輸順序。該方法雖然結合了患者的歷史病例,但是單純地依靠詞頻的方法很難保證提取的關鍵區域是正常還是異常,新出現的異常區域無法檢測出來。

為了優化傳統的影像傳輸流程,提高醫生工作效率,本研究提出了一種智能的大體積醫療影像傳輸的優化方法,將醫生的診斷報告與計算機影像分析結果相結合,提取出影像關鍵部位圖像并將其優先傳輸到顯示終端,隨后根據用戶的需求將剩余部分數據進行傳輸,在顯示終端上合并展示。醫學影像傳輸優化方法流程如圖1所示,具體為:①應用FlashText算法對診斷報告進行關鍵詞匹配提取,構建病灶、異?;蛘呖梢傻拿枋鲆约跋鄳膮^域位置的關鍵詞對;②利用人工智能影像分割算法3D-UNet將影像數據按照不同的器官、部位等分割為不同的子區域影像;③依據關鍵詞對以及影像分割結果,匹配提取對應的關鍵區域影像對應的橫斷位切片子影像數據塊,為子影像數據塊分配傳輸優先級分數,按照優先級分數將子區域影像數據推入傳輸隊列依次傳輸,將輸入的三維CT影像通過語義分割為5個不同的子區域:左上肺葉、左下肺葉、右上肺葉、右中肺葉、右下肺葉。本研究提出的方法不受個人偏好、病灶差異性等因素影響,同時具備更好的泛化性能。

圖1 醫學影像傳輸優化方法流程Fig.1 Flowchart of the optimized medical image transmission method

1 數據與方法

1.1 數據的采集與預處理

醫聯中心每日采集36家上海市市級醫院醫療電子數據,包括檢驗報告、檢查報告、檢查影像、電子病歷等,歸集到中心端統一存儲與管理。我們基于醫聯中心的數據,隨機抽取了2020ü 2022年的1000例胸部CT斷層掃描影像及其對應的診斷報告。CT掃描影像數據的分辨率為0.625~5 mm,原始尺寸約為512像素h 512像素h 層數,以DICOM格式存儲。由專業醫生標注,標注掩膜分為5個類別:左上肺葉、左下肺葉、右上肺葉、右中肺葉、右下肺葉。診斷報告以.txt文本格式存儲。

對于每個獲取的三維CT掃描影像數據,保留其中0.5%~99.5%的體素值,并做z-score標準化處理,然后對其三次樣條插值,將其縮放為228像素h 228像素h 128像素的三維圖像。實驗選取所有CT影像數據的70%作為訓練集,20%作為驗證集,10%作為測試集。

1.2 文本報告關鍵詞提取

醫生的診斷報告具有專業性強、專業術語多、數據量大等特點。正則表達式是目前常見的關鍵詞匹配方法,但使用煩瑣且其匹配耗時會隨著關鍵詞字典數量的增加而呈線性增長。FlashText是一種基于Aho-Corasick算法[6]的關鍵詞匹配算法,該方法不會受到關鍵詞字典數量的影響,更加高效,并廣泛應用[7-8]。具體地,FlashText算法首先會根據關鍵詞語料庫(本研究中的詞庫由醫生預定義)構建一個前綴樹字典。定義start和eot(end of term)節點,其中start節點為前綴樹的根節點,eot節點為關鍵詞的結束節點,均用來定義詞的邊界。每個eot節點都有一條從根節點到它的唯一路徑,代表一個單詞。FlashText算法構建的前綴樹字典結構如圖2所示。其中前綴樹字典包含了右肺、右肺上葉、右肺下葉、主動脈弓、增厚和增大6個關鍵詞。

圖2 FlashText算法構建的前綴樹字典結構Fig.2 Illustration of tree structure built by FlashText algorithm

對于輸入的字符串,按字符逐個在前綴樹字典中搜索,若當前節點為eot節點且沒有相匹配的孩子節點,那么輸出該關鍵詞,若當前節點不是eot節點且與當前根節點匹配不上則返回前一個匹配到的eot節點對應的關鍵詞。例如,假設有字符串 右肺下方有陰影”,按照圖2所示的前綴樹字典,可以匹配到 右肺下 三個關鍵字,這并不是一個關鍵詞,但回溯到上一個eot節點可以發現,“右肺 是一個關鍵詞,因此輸出結果為 右肺”。

1.3 影像分割

U-Net是由RONNEBERGER等[9]在2015年提出的一種encoder-decoder結構的深度卷積神經網絡,其跳躍連接層結構使得網絡在編碼與解碼的過程中很好地保留了圖像的特征信息,使得其在醫療圖像語義分割任務上有出色的表現。對于3D醫療影像,等[10]將2D卷積操作改進成了3D卷積操作,使得網絡更好地保留了三維影像的結構信息。3D U-Net同樣包含了一個編碼器encoder和一個解碼器decoder。編碼器中包含了四層不同分辨率的卷積網絡結構,每一層有兩個3h 3h 3卷積,每一個都后接一個Normalization層以及ReLU層,最后連接了一個2h 2h 2的每個方向上步長都為2的最大池化層,用于下采樣。相應的解碼器每一層包含一個步長為2的2h 2h 2的反卷積層用于上采樣,緊跟兩個3h 3h 3的卷積層,每一個都后接一個Normalization層以及ReLU層。通過一個跳躍連接層將編碼器中相同分辨率的層通過concat操作傳遞到對應的解碼器層中,網絡最后由一個1h 1h 1的卷積層構成,其輸出通道數為按像素分類后的標簽類別數量。我們將編碼器和解碼器中的Batch Normalization[11]替換為Instance Normalization[12],將ReLU層替換為斜率0.01的Leaky ReLU。3D-UNet模型結構如圖3所示。

圖3 3D-UNet模型結構Fig.3 3D-UNet model structure

1.4 優先級傳輸隊列

為了與關鍵影像匹配,根據不同的語義將關鍵詞分為器官、位置、病理特征(異常)以及否定詞共四類。構造關鍵詞對,如圖4所示。將診斷報告分成不同的詞段,對每一個詞段,提取出表示病灶、異常的詞,過濾掉否定的描述,搜索其最近鄰的器官以及位置描述關鍵詞,生成關鍵詞對。圖4中加粗的關鍵詞表示器官,斜體表示位置,下劃線表示病例特征或者異常描述,高亮表示否定詞。

圖4 構造關鍵詞對示意Fig.4 Illustration of constructing keyword pairs

對于每一個分割子區域根據醫生的需求預定義關注程度分數Ci,1,2,…,K,其中K為子分割區域的總數量。同樣的對于每一個程度描述或者病灶描述預設一個表示嚴重程度的分數Li,,2,…,M,其中M為所有相應描述的關鍵詞總數目。例如 Ca”(癌變)、“出血 腔梗 等關鍵詞分數較高,“可疑 可能 增寬 等描述詞匯關鍵詞分數較低。對于每一個分割區域依據對應的關鍵詞對打分,分數Gi的計算方式如式(1)所示,其中N為該影像報告中出現的結構化關鍵詞對的總數量,ni為分割區域i內的關鍵詞對的數量,α、β為常數系數。對于沒有與關鍵詞對進行關聯的子區域圖像,令其關注程度Ci分數為零。

在用戶顯示終端發送數據請求后,對所請求的影像數據,按照優先級順序將預處理好的關鍵區域影像塊以及對應的診斷報告詞段描述和對應的位置信息依次推入消息傳輸隊列,首先在用戶的顯示終端按照順序將關鍵區域影像在所對應的位置渲染。若關鍵區域仍不能滿足診斷需求,用戶可繼續請求剩余部分的影像數據。這樣減少不必要的影像傳輸,避免網絡資源的浪費。

2 實驗結果及分析

實驗平臺配置如下:CPU為Intel? Xeon?CPU E5-2643 v3 @ 3.40 GHz;顯卡為NVIDIA GTh 1080Ti(h 4),顯存容量為12 GB;操作系統為18.04.2-Ubuntu,配置了CUDA 11.1和cuDNN 8.0.5;深度學習框架為Pytorch1.9.0。

2.1 關鍵詞提取與影像分割

由于本研究中診斷報告平均長度為317字符,關鍵詞數量較少,因此選擇了含有18749條醫學關鍵詞條的thuocl medical詞庫,來對FlashText方法進行有效性分析。實驗隨機選取了16000個關鍵詞,FlashText和正則表達式(Regex)2種方法在不同數量的關鍵詞字典上的平均運行時間(wall time)的耗時結果如圖5所示。圖5中橫坐標為字典中的關鍵詞個數,縱坐標為平均運行時間。由圖5可知,隨著字典中的關鍵詞數量的增加,正則表達式運行時間呈線性增長,而FlashText幾乎不受影響。因此,本研究選擇可擴展性更高的FlashText方法來提取關鍵詞。

圖5 FlashText與正則表達式Regex運算時間比較Fig.5 Comparison of computing time between FlashText and Regex

為了分析改進后的3D-UNet分割方法的有效性,在劃分好的訓練集上通過混合精度方法進行模型訓練,使用Kaiming initialization方法[13]對模型的權重和偏差進行初始化,Dice Loss作為損失函數,ADAM為模型的優化器,初始化學習率為0.001,使用分布式訓練方法,每塊GPU上的Batch Size為2,迭代次數為200。在驗證集上進行5-fold交叉驗證,選取表現最好的模型作為最終結果。將得到的模型在測試集上進行驗證。使用Dice系數、Jaccard系數以及平均對稱表面距離(average symmetric surface distance,ASSD)作為評價指標,其定義分別如式(2)~(4)所示,其中X表示預測值,Y表示真實值,S(X)表示X邊界上的像素點集合。Dice系數和Jaccard系數是語義分割任務上常用的評價指標,其值越接近1,代表分割結果越接近真實值;ASSD表示分割結果與真實值表面的平均距離,其值越小,代表分割結果越接近真實值。

模型分割結果如下:Dice系數為0.974,Jaccard系數為0.958,ASSD達到2.186。模型分割結果的準確率較高,能夠滿足關鍵影像區域的分割要求。

2.2 關鍵影像有效性分析

在收集的1000個數據中,有592個影像數據異常、病灶等相關診斷報告描述,占數據集的59.2%,其余40.8%為正?;颊哂跋?。在異常的數據中,通過本方法提取出的關鍵影像切片平均大小約為原始影像的45.4%,即節省了54.6%的影像傳輸資源,有效地縮短了影像傳輸時間,降低了網絡資源占用。為了更好地分析本方法在優化醫療影像傳輸上的有效性,邀請了兩名專業的臨床醫生參與評價。由醫生在測試數據集上進行獨立閱片,判斷所提取的關鍵區域影像能否滿足診斷需求。實驗結果顯示,對于報告中包含病灶的患者數據,平均94.4%的情況下臨床醫生只需要瀏覽關鍵影像即可滿足診斷需求,剩余5.6%未能提取出全部異常以及包含病灶的影像區域,需要醫生進一步請求傳輸剩余影像子區域。

3 結論

針對醫療影像數據體積大、傳輸占用的網絡資源高、傳輸效率差等問題,本研究提出了一種結合醫生診斷報告中的關鍵性描述與影像關鍵區域的分步影像傳輸優化方法。通過3D-UNet將影像分割為子影像數據塊,應用FlashText關鍵詞匹配方法分析醫生的診斷報告并抽取其中的關鍵性描述詞對,匹配相應的區域的橫斷位切片子影像數據塊,按照用戶的需求與其優先級順序依次傳輸子影像數據塊。實驗證明,本方法基于對診斷報告和影像的準確分析,能夠優先傳輸最相關的影像數據塊,進而讓醫生能快速有效地在診斷過程中獲取關鍵區域的影像。實驗表明,本方法能夠減少約50%的影像傳輸負擔,大幅降低了對于傳輸設備以及網絡資源的要求,對于實現全國各醫療機構醫療信息共享、醫療數據互聯互通,有重要的現實意義和經濟價值。

猜你喜歡
肺葉傳輸醫生
最美醫生
混合型隨機微分方程的傳輸不等式
牽引8K超高清傳輸時代 FIBBR Pure38K
關于無線電力傳輸的探究
醫生
望著路,不想走
用全胸腔鏡下肺葉切除術與開胸肺葉切除術治療早期肺癌的效果對比
支持長距離4K HDR傳輸 AudioQuest Pearl、 Forest、 Cinnamon HDMI線
全胸腔鏡肺葉切除術中轉開胸的臨床研究
帕瑞昔布鈉用于肺葉切除術病人超前鎮痛的效果
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合