?

FCM 數據細胞亞群分類和標注的自動化研究

2024-04-08 05:28擺文麗農衛霞李智偉郭玉娟張向輝芮東升
醫學信息 2024年6期
關鍵詞:亞群聚類分類

擺文麗,農衛霞,李智偉,雷 偉,郭玉娟,張向輝,芮東升,王 奎

(1.石河子大學醫學院預防醫學系,新疆 石河子 832000;2.石河子大學醫學院第一附屬醫院血液風濕科,新疆 石河子 832000;3.新疆維吾爾自治區人民醫院臨床檢驗中心,新疆 烏魯木齊 830001)

流式細胞術(flow cytometry,FCM)是一種能夠精確、快速地對生物細胞或微粒的理化特性和生物學特性進行定量分析的技術[1]。隨著精準醫療和基因生物學的發展,FCM 已經成為惡性血液病診斷的重要依據[2]。FCM 數據在人工分析中最關鍵和最耗時的步驟是識別數據中的同質細胞群,這個過程為“設門”[3]。數據傳統的分析方法是通過不同參數組合進行人工設門,隨著檢測參數成倍增加,產生了多組合、高維度的流式數據,而FCM 數據分析成為FCM 中最具挑戰性和最耗時的診斷步驟[4-7]。自動設門是基于細胞群熒光強度分布的數學建模,可以使用有監督和無監督的方法來執行,用于解決人工設門所面臨的問題。目前常見的自動化分析方法包括FlowMeans[8]、SPADE[9]、Citrus[10]、FlowSOM[11]以及PCA[12]等,其中最常用的是FlowMeans,其是一種無監督聚類方法,通過合并多個聚類以獲得最終細胞亞群[13,14],但只能將FCM 數據中相似的細胞聚成亞群[15,16],不能實現亞群的標注,因此需要工作人員去一一識別,存在一定局限性?;诖?,本研究旨在分析FlowSOM 與有監督分類模型[17](混合正態分布模型)聯合應用于FCM 數據自動化分析中的效果,現報道如下。

1 資料與方法

1.1 數據來源 數據來源于實驗室2021 年1 月-12 月同一面板急性白血病骨髓檢測數據,共528例,包括412 例正常人、68 例AML、9 例T-ALL 以及39例B-AL。本研究經當地政府倫理委員會批準。

1.2 數據分析 FCM 數據細胞亞群的自動分類和自動標注可以分成4 個階段進行:①預處理:通過讀取數據、補償和轉換、去粘連完成FCM 數據預處理;②細胞聚類:使用FlowSOM 方法對預處理的數據進行細胞聚類,聚類的結果以宏細胞的方式可視化;③亞群分類:利用混合正態分布模型,訓練有監督分類模型對細胞亞群進行分類;④亞群標準:對③得到的有限個數的細胞亞群類進行識別和標注建立多對多映射,完成細胞亞群的標注。

1.2.1 數據預處理 通過補償、轉換和去粘連完成FCM 數據的預處理。①首先應用補償矩陣對數據進行補償,補償矩陣采用流式fcs 格式數據自帶的補償矩陣,通過讀取熒光抗體名稱與提取熒光通道的數據矩陣,對熒光抗體做補償[5];②接著對FCM 數據做轉換,對前向散射光FSC 進行線性變換(除以100 k),側向散射光SSC 進行Log10對數轉換,對抗體做雙指數變換;③最后使用百分位法在FSC-A 和FSC-H 平面對數據做去粘連處理,具體步驟如下:首先選取FSC-H 大于0.5 且FSC-A 小于2 的細胞子集,計算其在全體細胞中的占比;當子集占比小于等于0.75 時,使用子集計算變量FSC-A 與FSC-H的百分位點P5和P75,否則計算P5和P90;以兩個對子為端點做基準線段,將連線垂直上移和下移0.225單位做兩條平行線;兩條平行線之外的點即為粘連細胞;FSC-H 小于0.2 的點對應于細胞碎片,其余的為進入后續分析的細胞,包括正常細胞和凋亡細胞。上述切割點的選擇用試錯法確定。

1.2.2 細胞聚類 細胞聚類采用無監督分析方法,在操作中不需要任何標簽,任何預定義的類作為引用。聚類算法識別同一聚類中的事件,將相似的細胞保留在同一個集群中,不同的細胞保留在不同的集群中。FlowSOM 具有節點網格,每個節點代表多維空間中的點[17]。自組織映射(the self-organizing map,SOM)將數據中的單元格分配給最近的節點,該節點以及周圍的節點向新單元格更新,以此類推,節點被分配到數據空間中的高密度區域,節點網格中相近的節點比較遠的節點更相似[18]。因此,所有的單元格將會分配到距離他們最近的節點,從而將FCM 數據中相同的細胞聚類在一起形成細胞亞群。為便于觀察聚類結果,FlowSOM 聚類結果以亞群中心點展示,下文中把亞群中心點稱為宏細胞。聚類的目標是將FCM 數據分為若干個類群,并保證類群內的樣本盡可能密集,不同類群之間盡可能離散。FlowSOM將FCM 數據中相似的節點聚在一起形成無標簽的細胞亞群,以宏細胞的形式展示。當比較5×5、10×10和15×15 網格時,發現節點數量越多對應的純度越高,但是聚類結果很混亂;根據經驗,前4 管使用12×12 網格,第5 管使用10×10 網格,因此前4 管的每管有144 個宏細胞,第5 管有100 個宏細胞。

1.2.3 亞群分類 聚類分析后得到細胞聚類結果,但由于FlowSOM 是無監督學習方法,不同抗體組合的樣本得到的亞群構成不一致,導致亞群次序混亂缺乏統一標簽,需要對細胞亞群進行分類[19]。把標本分為訓練集和測試集,訓練基于混合正態分布的有監督分類模型對所有的宏細胞進行分類,也就是對細胞亞群進行統一分類,混合正態分布模型的類別數設置為20。有監督的混合正態分布模型對FlowSOM生成的宏細胞結果進行分類。具體步驟如下:為了避免數據過少導致訓練集分類結果代表性差,選擇60%~70%的數據作為訓練集,30%~40%作為驗證集,因此從AML、T-ALL、B-ALL 數據中分別隨機挑選41、9、39 例數據作為訓練集;正常人數據有412例,如果隨機選擇60%的數據作為訓練集,這樣使得訓練集中正常人數據遠遠多于患者數據,正常人細胞亞群特征覆蓋異常細胞亞群,造成分類不準確,因此選擇100 例正常數據作為訓練集。訓練集170 例數據,共97 920 個宏細胞;測試集358 例數據,共206 208 個宏細胞,為了使分類結果清晰明了,從兩個數據中隨機選取25 000 個宏細胞來顯示。

1.2.4 亞群標注 為使細胞亞群分類更加精確,分類模型中亞群數目的設置通常高于常規使用的細胞類型數。因此在亞群標注過程中,通過提取細胞聚類信息以及各類細胞的細胞數,將宏細胞映射到9 個細胞類別并進行命名標注。

2 結果

2.1 粘連細胞的識別去除 以FSC-A 和FSC-H 為坐標繪制散點圖,基準線上下移動0.225 個單位產生兩條平行線將粘連細胞去除,見圖1,經檢查去粘連結果,發現粘連細胞劃分均合理。

圖1 預處理結果

2.2 聚類分析 各類細胞的宏細胞分布是有規律可循,服從特定的概率分布,見圖2。

圖2 FlowSOM 聚類結果

2.3 亞群分類與標注 共有20 個類別,且各類宏細胞位置合理,未見異常,見圖3;另對20 個細胞類別進行一一識別和標注,得到9 種已知細胞類,分別是淋巴細胞、單核細胞、中性粒細胞、嗜酸粒細胞、原始細胞、幼稚細胞、有核紅細胞、凋亡細胞、其他細胞,見圖4。

圖4 細胞亞群標注前后比較

3 討論

由于FCM 具有高通量、高靈敏度、高精確度以及多參數檢驗的特點[20],被廣泛的應用于生物學研究及臨床診斷中[21-23],同時會產生高維度、多組合的FCM 數據。而傳統人工分析具有分析效率低、主觀性高的問題。近年來不斷有學者提出FCM 數據的分析需要自動化分析方法的幫助[5,24]。

針對以上問題,本研究提出無監督聚類方法與有監督分類方法共同用于FCM 數據分析,模擬人工分析過程,獲取臨床流式實驗室的原始檢測數據,預處理過程通過補償、轉換、粘連細胞以及細胞碎片的去除,使得FCM 數據規范化,檢查發現每例數據的粘連細胞去除均合理;之后將無監督聚類方法與有監督分類方法結合起來用于FCM 數據聚類、亞群分類與標注,顯著優點是其既能夠快速分類又能夠提高分類數目的準確度。

無監督聚類方法FlowSOM 作為分析的起點,將FCM 數據中相似的細胞聚在一起形成無標簽的細胞亞群,通過設定的參數,FlowSOM 將FCM 數據中相似的細胞聚在一起形成無標簽的細胞亞群,以宏細胞的形式展示。從聚類結果看出,FlowSOM 具有良好的性能以及快速的運行時間,是對FCM 數據進行快速探索性分析的理想工具。但是將宏細胞進一步聚類時會出現不同細胞類型合并的現象,不能通過FlowSOM 模型的元聚類對亞群進一步聚類與特征提取。因此,使用有監督分類模型混合正態分布模型對FlowSOM 生成的宏細胞進行分類,有監督學習算法可以達到這樣一種狀態:在提供足夠的信息數據前提下,它能夠預測未見數據的正確標簽;混合正態分布模型對亞群進行分類時,首先將數據集分為訓練集和測試集,使用訓練集訓練有監督分類模型過程中,對亞群類別參數進行設定,發現隨著亞群數的增加,分類精確度會提高,但是不利于對亞群進行標注;反之,亞群數減少,精確度降低,但是會出現將不同細胞亞群分到一起的現象。故根據經驗,將細胞亞群設置為20 個,接下來使用測試集對模型進行測試,檢查訓練集與測試集的分類結果,未見異常,可以認為有監督分類模型能夠準確地對訓練集和測試集進行分類。最后通過設定標簽的形式將20 個類別依次識別并用已知的細胞類別進行標注,即將宏細胞映射到9 個細胞類別,對這9 個細胞類別進行命名標注,檢查所有數據標注前與標注后的可視化結果圖,亞群標注結果清晰,未見異常。

總之,通過將基于本研究方法的亞群分類與標注結果與傳統人工分析結果進行對比,成功驗證了自動化分析方法在FCM 數據分類與標注中的可行性和高準確性,具有較好的應用前景,可以為下游FCM 數據自動化診斷提供參考,并且能夠保留原始數據更多的特征信息,為下游診斷結果的質量控制提供依據。本研究也有不足之處:作為流式數據全程自動化分析的重要組成,而且分類結果較難用評價指標進行評價,因此利用分類結果進行特征提取和疾病診斷,診斷結果與專家人工分類結果基本相同,從而反推證明本研究提出的FCM 數據自動化分類方法可靠;自動化分析FCM 數據時假設流式實驗室在樣本準備、熒光染色、儀器校準和調整階段均正常,在實際情況中,可能出現數據大幅度偏移,建立在分布規律基礎上的亞群標注結果可能會出現偏差。目前,本研究提出的自動化分析方法已經在公共數據庫Flowrepository.orgAML 項目提供的數據以及本地實驗室急性白血病骨髓檢測數據進行過測試,效果良好。

猜你喜歡
亞群聚類分類
TB-IGRA、T淋巴細胞亞群與結核免疫的研究進展
甲狀腺切除術后T淋巴細胞亞群的變化與術后感染的相關性
分類算一算
分類討論求坐標
數據分析中的分類討論
基于DBSACN聚類算法的XML文檔聚類
教你一招:數的分類
基于高斯混合聚類的陣列干涉SAR三維成像
外周血T細胞亞群檢測在惡性腫瘤中的價值
一種層次初始的聚類個數自適應的聚類方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合