【摘要】目的 探討基于MRI影像組學聯合臨床特征的不同機器學習模型對宮頸鱗癌組織學分級的預測價值。方法 回顧性分析經病理活檢證實的150例宮頸鱗癌患者,按4∶1的比例隨機分為訓練集和驗證集。從T2加權像脂肪抑制序列(FS-T2WI)和增強T1WI(延遲期)的感興趣區中提取特征。經過降維和篩選特征后,使用Logistic回歸(LR)、支持向量機(SVM)、貝葉斯(NB)、隨機森林(RF)、輕量級梯度提升機(LightGBM)、K-最近鄰法(KNN)構建預測宮頸鱗癌組織學分級的影像組學模型。采用受試者操作特征(ROC)曲線下面積(AUC)評估6種模型的預測性能。采用單因素及多因素Logistic回歸分析預測獨立危險因素,并建立臨床及影像組學聯合模型。通過AUC比較各個模型的差異,決策曲線(DCA)評估模型的臨床價值。結果 在影像組學模型中,LightGBM模型AUC下面積最大(訓練集為0.910,驗證集為0.839)。臨床特征聯合LightGBM模型的AUC面積最大(訓練集0.935,驗證集0.888),高于臨床模型(AUC訓練集為0.762,驗證集為0.710)和LightGBM影像組學模型。結論 LightGBM模型在影像組學模型中預測價值較高。聯合模型的DCA效果最佳,具有最好的臨床凈獲益。結合影像組學和臨床特征的聯合預測模型對宮頸鱗癌低分化具有良好的預測價值,可為臨床決策提供一種無創、高效的方法。


Value of machine learning model based on MRI radiomics in predicting histological grade of cervical squamous cell carcinoma Wang Hezhen, Bian Fang, Tong Yujie, Duan Yanan, Zhai Dongzhi. Department of Medical Imaging, the Second Affiliated Hospital of Zhengzhou University, Zhengzhou 450014, China

Corresponding author, Zhai Dongzhi, E-mail: 963893762@qq.com

【Abstract】Objective To explore the predictive value of different machine learning models based on MRI radiomics combined with clinical features for histological grade of cervical squamous cell carcinoma. Methods Clinical data of 150 patients with cervical squamous cell carcinoma confirmed by pathological biopsy were retrospectively analyzed. They were randomly divided into the training set and validation set at a ratio of 4∶1. Features were extracted from the regions of interest of T2WI fat suppression sequence (FS-T2WI) and enhanced T1WI (delayed phase). After dimensionality reduction and feature selection, logistic regression (LR), support vector machine (SVM), na?ve Bayes (NB), random forest (RF), Light Gradient Boosting Machine (LightGBM), K-nearest neighbor (KNN) were used to construct a radiomics model for predicting the histological grade of cervical squamous cell carcinoma. The area under the receiver operating characteristic (ROC) curve (AUC) was used to evaluate the predictive performance of the six models. Univariate and multivariate logistic regression analyses were performed to predict the independent risk factors, and a combined model of clinical and radiomics was established. The differences of each model were compared by AUC, and the clinical value of the model was evaluated by decision curve (DCA). Results In the radiomics model, the LightGBM model had the largest AUC (0.910 in the training set, and 0.839 in the validation set). The AUC of clinical features combined with LightGBM model was the largest (0.935 in the training set, and 0.888 in the validation set), which was higher than those of clinical model (0.762 in the training set, and 0.710 in the validation set) and LightGBM radiomics model. Conclusions The LightGBM model has a high predictive value in the radiomics model. The combined model has the optimal DCA effect and the highest clinical net benefit. The combined prediction model combining radiomics and clinical features has good predictive value for cervical squamous cell carcinoma with low differentiation, providing a non-invasive and efficient method for clinical decision-making.

【Key words】Cervical cancer; Radiomics; Histological grade; Magnetic resonance imaging; Machine learning





回顧性收集2018年1月至2023年7月就診于鄭州大學第二附屬醫院的宮頸鱗癌患者臨床、影像及病理資料。病例納入標準:①經病理證實為宮頸鱗癌;②有詳細的臨床及病理資料;③MRI檢查前未接受任何治療。排除標準:MRI圖像質量欠佳的患者。所有病例均由一名10年以上工作經驗的放射科醫師依據FIGO 2018分期進行臨床分期。本研究經醫院醫學倫理委員會審批(批件號:2023137),所有患者均已簽署知情同意書。


采用Siemens Skyra3.0T或GE Pionner3.0T磁共振儀,配備8通道相控陣線圈完全覆蓋患者盆腔。掃描序列和參數:①橫斷面脂肪抑制T2WI序列:TR 3 150 ms,TE 86 ms,層厚5 mm,間距1 mm,視野260 mm×260 mm,激勵次數2次;②橫斷面增強T1WI序列:TR 3.2 ms,TE 1.2 ms,層厚

3 mm,視野380 mm×380 mm,激勵次數1次。對比劑為釓噴酸葡胺(Gd-DTPA),注射流率3 mL/s,用量0.1 mmol/kg,使用生理鹽水(20 mL)清洗。


首先對圖像預處理,應用N4磁場校驗并進行重采樣調整體素為1 mm×1 mm×1 mm。然后將患者的橫斷位脂肪抑制T2WI、增強T1WI圖像以DICOM格式導入ITK-SNAP3.8.0軟件。在不知病理結果的情況下,由一位有5年工作經驗的放射科醫師沿病灶進行逐層勾畫(圖1)。為了保證影像組學特征的可重復性,2周后隨機選取30個病灶重新勾畫,計算組內相關系數。由另一位有10年工作經驗的放射科醫師進行核對,共同確定最終的ROI。


使用Pyradiomics(Python3.0.1)對每個ROI提取影像組學特征, 包括一階特征(Firstorder)、直方圖灰度共生矩陣(GLCM)、形狀特征(Shape)、灰度共生矩陣(GLDM)、鄰域灰度差矩陣(NGTDM)、灰度游程長度矩陣(GLRLM)、灰度區域大小矩陣(GLSZM)特征。首先對提取的影像組學特征使用Z-score標準化,通過t檢驗(P <

0.05)篩選特征。隨后使用Pearson相關性分析去除高相關性的相似特征,r > 0.90的特征被認為是高度相關的特征,2個特征保留1個。按照4∶1隨機劃分訓練集與驗證集。再在訓練集中使用最小絕對收縮和選擇算子(LASSO)回歸篩選出最具預測性的特征,使用篩選的最佳特征構建影像組學模型。在訓練集中使用Logistic回歸(LR)、支持向量機(SVM)、貝葉斯(NB)、隨機森林(RF)、K-最近鄰法(KNN)、輕量級梯度提升機(LightGBM)建立模型,并且使用五倍交叉驗證在訓練集中評價模型,在驗證組中驗證。


采用SPSS 26.0和Python 3.0.1進行統計分析。正態分布的連續變量以表示,組間比較采用t檢驗;非正態分布的連續變量以M(P25,P75)表示,組間比較采用Mann-Whitney U檢驗;分類變量以例(%)表示,有序變量組間比較采用秩和檢驗,無序變量組間比較采用χ 2檢驗或Fisher確切概率法。P < 0.05為差異有統計學意義。




本研究共納入150例宮頸鱗癌患者,包括中高分化患者82例、低分化患者68例。在訓練集與驗證集中,低分化與中高分化患者年齡比較差異均有統計學意義(P < 0.05)。見表1。


單因素和多因素Logistic回歸分析顯示,年齡增加及淋巴結轉移是宮頸鱗癌組織學分級的危險因素(P < 0.05)。見表2。


從兩個序列的ROI中共提取2 395個特征,經過降維和篩選保留了7個特征分別為wavelet_-HLH_glszm_SmallAreaEmphasis、log_sigma_3_0_-mm_3D_firstorder_Median、original_shape_Sphericity、wavelet_HHH_gldm_DependenceNonUniformityNorma-lized、wavelet_HLH_glcm_Correlation、wavelet_HLL_-glcm_Idn、wavelet_LLH_firstorder_Maximum。訓練集和驗證集中的6個影像組學模型(LR、NB、SVM、KNN、RF、LightGBM)的ROC曲線見圖2。在訓練集中最佳模型是RF,AUC為1.000,然而在驗證集中,最佳的模型是LightGBM。LightGBM模型的AUC、準確度、靈敏度、特異度、PPV、NPV和F1分別為0.839、0.833、0.938、0.714、0.789、0.909、0.857,見表3。RF模型雖然在訓練集體現出良好的預測價值,但在驗證集上欠佳,顯示出過擬合的趨勢。為了保證模型的穩定性和持續性,最終選擇LightGBM模型為最佳模型。




在探討影像組學在宮頸癌病理預測中的價值時,許多學者已進行了深入研究。Wang等[14]研究顯示,宮頸腺癌紋理異質性高于宮頸鱗癌,多序列MRI圖像構建的聯合模型鑒別宮頸鱗癌與腺癌的 AUC為0.89,高于各單獨序列模型。謝元亮等[15]報道,基于動態增強MRI的紋理分析技術有助于在術前預測宮頸癌的組織病理學分型和臨床分級。近年來,影像組學為預測組織學分級提供新的方法。Wang等[16]認為,T2WI模型可以更好鑒別宮頸鱗癌的高低分化。尹進學等[17]發現,基于T2WI的3D紋理特征術前預測宮頸癌病理組織學分級具有一定價值。Shi等[18]構建的T2WI和體素不相干運動彌散加權成像聯合模型,在評估組織分化方面性能優于單獨序列。Liu等[19]基于表觀擴散系數的影像組學特征評估宮頸癌的組織病理分級,結果顯示三維全腫瘤體積分析在區分宮頸癌的組織學分級方面優于二維腫瘤切片。孟影等[20]聯合MRI影像組學評分和臨床模型構建的列線圖,能較好預測宮頸癌組織學分級。早期準確識別宮頸癌組織分級,對治療及預后至關重要[21]。既往研究多是使用一種機器學習建模,而本研究構建了6種機器學習模型。

宮頸癌在動態增強延遲期易與周圍正常組織區分,呈相對弱強化,因此本研究采用延遲期圖像進行病灶分割[22]。機器學習可以提供更準確、客觀、可靠的模型來輔助臨床決策[23]。解添淞等[7]基于CT影像組學預測胰腺癌 CD8+T淋巴細胞浸潤狀態,使用決策樹、極端隨機樹、RF 3種機器學習算法建立模型,顯示極端隨機樹模型效能最佳(AUC訓練集0.865,驗證集0.744)。Zhang等[24]發現,RF模型能夠準確預測轉移性結直腸癌的早期死亡,優于Logistic回歸、CatBoost、XGBoost和LightGBM模型,RF模型比其他模型具有更多的臨床效益。影像組學模型的預測性能對于疾病診斷和治療方案制定至關重要,而這種良好的預測性能在很大程度上取決于適當的機器學習算法。



