?

基于多信息融合的DGPMIF致病基因關聯預測方法

2024-03-11 09:26馬金龍翟美靜
河北工業科技 2024年1期
關鍵詞:異構關聯預測

馬金龍 翟美靜

摘?要:

為了解決利用單一生物數據無法揭示復雜的生物過程和疾病機制的問題,提出了一種多信息融合的DGPMIF致病基因預測方法。首先,構建一個具有疾病-表型、疾病-基因、蛋白質-蛋白質和基因-本體關聯的異構網絡,利用網絡嵌入算法提取該異構網絡中節點的低維向量表示,同時結合網絡拓撲算法提取網絡結構特征。其次,利用余弦相似性算法衡量節點向量的相似性,預測疾病與基因之間的關系。最后,通過對特定疾病的案例進行研究,并與經典致病基因預測方法進行對比,驗證DGPMIF方法的有效性。結果表明:不同類型的關聯數據對增強致病基因預測性能具有重要作用;經過多層次信息融合,提高了致病基因預測的預測性能。DGPMIF預測方法能夠高效挖掘網絡中蘊含的信息,對相關疾病基因關聯的預測研究具有重要的參考價值。

關鍵詞:

人工智能其他學科;致病基因;異構網絡;信息融合;網絡嵌入;網絡結構特征

中圖分類號:TP29?文獻標識碼:A

DOI: 10.7535/hbgykj.2024yx01004

A disease-gene association prediction method of DGPMIF based on multi-information fusion

MA Jinlong, ZHAI Meijing

(School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China)

Abstract:

In order to solve the problem of being unable to reveal complex biological processes and disease mechanisms using only a single biological data, proposed a disease-causing gene prediction method, DGPMIF, adopting a multi-information fusion strategy. Firstly, a heterogeneous network with disease-phenotype, disease-gene, protein-protein and gene-ontology associations was constructed. The network embedding algorithm was used to extract the low-dimensional vector representation of the nodes in the heterogeneous network. At the same time, the network topology algorithm was combined to extract network structural characteristics. Secondly, the cosine similarity algorithm was used to measure the similarity of node vectors and predict the relationship between diseases and genes. Finally, the effectiveness of the DGPMIF method was verified through case studies of specific diseases and comparison with classic disease-causing gene prediction methods. The results show that different types of associated data play an important role in enhancing the prediction performance of disease-causing genes, and the predictive performance of disease-causing gene prediction is improved through multi-level information fusion. DGPMIF prediction method can efficiently mine the information contained in the network, and has important reference value for prediction research on gene association of related diseases.

Keywords:

other disciplines of artificial intelligence; disease-causing genes; heterogeneous network; information fusion; network embedding; network structural characteristics

對致病基因的研究在醫學研究中發揮著重要作用。在臨床中,眾多疾病顯現出深刻而復雜的表型特征,為明確這些疾病與基因的隱秘關聯,需要對候選致病基因進行精確鑒定[1]。傳統方法(如連鎖分析)能夠確定這些基因之間的關聯,但對于涉及數百甚至更多基因的復雜疾病,則成本高昂且耗時長[2]。因此,計算方法顯得尤為關鍵。在過去的幾十年里,人們利用計算方法對疾病基因之間的關聯進行了大量研究。

網絡表示能夠簡化復雜多樣的生物數據,使得基于網絡的方法在預測疾病基因關聯方面越來越受歡迎[3]。諸多研究表明,與相同或相似疾病相關的基因通常在功能上相關,并且它們在蛋白質-蛋白質相互作用網絡(PPI)中彼此相鄰或接近[4]。GONZALEZ等[5]設計了一種計算致病基因的方法,觀察疾病相關蛋白質之間的相互作用關系以及這些蛋白質節點在網絡中的聚集傾向,利用蛋白質相互作用網絡的拓撲結構來識別致病基因。PPI網絡上的重啟隨機游走(RWR)用于預測致病基因,基于網絡中隨機游走過程,探索候選基因和種子基因之間的網絡鄰近性[6]。然而,PPI網絡數據的單一性使其難以全面反映疾病與基因之間的相關信息。因此,越來越多的研究采用異構網絡來解決復雜的疾病基因預測問題。相比于同構網絡,異構網絡在疾病基因預測方面提供了更全面、多樣化和上下文感知的信息,能更好地處理生物系統的復雜性,并提供更準確的致病基因預測算法。RWRH算法是通過將RWR算法擴展到疾病基因異構網絡而生成的[6-7]。VANUNU等[8]提出了基于類似異構網絡的PRINCE算法,該算法可用于對所有疾病的致病基因進行全局優先排序。與此同時,XIE等[9]還提出了雙隨機游走(BiRW)算法來實現這一任務?;诋悩嫈祿愋?,ZAKERI 等[10]提出了異構數據融合,并已被證明是可行的。異構網絡與多源信息的結合可以提供多維互補的信息表示,在疾病基因預測方面比同質數據更有優勢。

近年來,圖嵌入方法逐漸嶄露頭角,成為從網絡數據中挖掘有用信息的一種顯著方法。這一方法也被稱為網絡嵌入,其旨在生成節點表示,確保在短隨機步行距離內的節點擁有相近的嵌入,并能自動學習疾病和基因的潛在特征或嵌入。例如,DeepWalk[11]、Node2vec[12]和 LINE[13]在學習嵌入方面表現出了出色的性能。隨后,一些研究人員通過整合新的網絡嵌入技術開展了相關工作。XIANG等[14]提出了一種利用快速網絡嵌入預測疾病相關基因的新方法PrGeFNE,該方法利用快速網絡嵌入算法從網絡中提取節點的低維表示,并重建雙層異構網絡。然而,如何從異構網絡中提取有價值的信息來準確、快速地預測致病基因仍是當前一項具有挑戰性和有意義的任務。

針對異構網絡中的疾病基因預測問題,本研究提出一種創新性的多信息融合方法,即DGPMIF。首先,建立一個異構網絡,涵蓋多種關聯,包括疾病基因關系和其他相關關聯。其次,運用先進的網絡嵌入算法,將這些關聯轉化為節點的特征表示,并融合網絡結構特征。通過對多信息融合、先進的網絡嵌入算法以及網絡拓撲結構特征的綜合運用,DGPMIF方法有望在異構網絡中更全面地捕獲重要特征,進一步推動疾病基因預測領域的研究進程。

1?DGPMIF方法概述

DGPMIF方法框架如圖1所示。

首先,以疾病基因為核心,將來自多個信息源的數據(包括疾病基因之間的關聯數據、疾病相關信息以及基因相關信息)整合到一個網絡中。這一步驟的關鍵在于綜合不同類型的信息以全面考慮各種關聯性。其次,采用先進的網絡嵌入算法處理這個異構網絡,將其中的節點映射為低維向量表示。這些向量包含節點之間的關系信息,更準確地描述節點在網絡中的位置和作用,有助于捕捉節點之間復雜的關聯關系,同時,充分利用網絡的拓撲結構特征。通過網絡拓撲算法提取與節點在網絡中的位置以及連接模式相關的信息,這一過程為節點的描述提供更多維度,能進一步豐富特征表示。最后,采用余弦相似度算法對增強的低維向量表示進行相似性計算,以量化節點之間的相似性。DGPMIF方法在異構網絡中更為深入地捕獲關鍵特征,從而提高疾病基因預測的準確性和綜合性。

2?DGPMIF方法預測關鍵環節

2.1?構建異構網絡

本文的數據集使用YANG等[15]提取的疾病基因異構網絡,包括4種類型的節點:疾病、疾病表型、基因和基因本體,以及多種不同類型的相互關聯關系。子網絡的具體基本信息如表1所示。在獲取表1中4類子網絡的原始數據后,需要對其進行預處理,檢查數據并刪除缺失值。然后通過疾病節點和基因節點作為中間節點連接,對所有節點進行統一映射,以保證最終集成網絡的準確性。本文構建的異構網絡可為研究提供多種生物數據的復雜關聯,有助于深入研究疾病基因的預測和相關性分析。此外,構成的網絡都是無權無向圖。

通過對上述疾病基因數據的分析和整合,本文重新定義了6個不同的網絡,其中每個網絡捕捉了不同類型的關聯信息。這6個網絡如下:1)疾病基因關聯(DGA,簡稱DG);2)DGA和PPI(簡稱[CM(22]DGG);3)DGA和疾病表型關聯(DSA)(簡稱[CM)]DGS);4) DGG和基因本體關聯(GOA)(簡稱DGGG);5)DGS和GOA(簡稱DGSG);6) DGA,PPI,DSA,GOA (簡稱DGSGG)。通過構建這些網絡,可以更全面地研究不同類型信息在致病基因預測中的作用,為疾病研究提供更多維度和角度。

2.2?網絡嵌入算法

網絡嵌入算法是在處理復雜網絡中節點的低維向量時的重要方法,廣泛應用于可視化、節點分類、鏈接預測等多種任務中。圖2展示了網絡嵌入算法的流程圖。為了在疾病基因的復雜網絡中更好地捕獲和保留網絡結構,本文采用了4種不同的網絡嵌入算法,分別是DeepWalk[11]、Node2vec[12]、LINE[13]和 SDNE[17]。這些方法被用于提取節點向量,以更好地捕獲和保留網絡結構。

1)DeepWalk?是一種基于隨機游走的網絡嵌入算法,其通過在網絡上執行隨機游走模擬節點間的隨機漫步過程。通過對這些隨機游走序列應用Word2vec等詞嵌入技術,將節點映射到一個低維向量空間中,使其在該空間中相似的節點保持相近的向量表示。

2)Node2vec?是DeepWalk的擴展,引入了參數控制隨機游走策略,使得可以在節點之間平衡探索局部和全局結構。Node2vec能夠更好地捕獲節點的多樣性和上下文信息,從而生成更具信息豐富性的節點嵌入表示。

3)LINE?是一種基于一階和二階鄰居的網絡嵌入算法。其通過最大化節點之間的一階和二階鄰居之間的相似性學習節點的向量表示。該方法在保留網絡結構信息的同時,能夠有效捕獲節點之間的高階關聯。

4)SDNE?是一種基于深度學習的網絡嵌入算法,通過自編碼器結構學習節點的嵌入表示。SDNE在保持網絡的拓撲結構信息的同時,能夠捕獲節點之間的非線性關系,使得其在處理復雜網絡時具有較強的表達能力。

在疾病基因網絡中,上述算法都以將網絡中的節點映射到低維向量空間為共同目標,有助于更深入地理解和分析網絡的結構、以及節點之間的關系。

2.3?網絡結構特征

網絡的結構信息與節點屬性緊密相關。常見的拓撲結構指標包括節點間的最短路徑、共同鄰居以及節點的度等。疾病基因網絡是一個異構網絡,與同構網絡相比,其擁有更為豐富的結構信息。為了進一步提高預測性能,將網絡的拓撲信息納入訓練樣本的特征中是至關重要的。

本文對一些具有代表性的結構特征進行詳細闡述,并給出其基本定義,包括度(degree,D)、度中心性(degree centrality, DC)、聚類系數(cluster coefficient,CC)、介數(betweenness,B)[18]、介數中心性(between centrality,BC)[19]、緊密中心性(closeness centrality,Cc)[20]和特征向量中心性(eigenvector centrality,EC)[21]。 對于給定的網絡G=(V,E),V是節點集合,E是邊的集合,用N(i)表示網絡中節點i的所有鄰居節點的集合,V是網絡節點總數。網絡中節點i的度D(i)和度中心性DC(i)定義如下:

D(i)=N(i),(1)

DC(i)=D(i)V-1。(2)

節點i的聚類系數CC(i)的定義如下:

CC(i)=2E(i)K(i)·(K(i)-1),(3)

式中:E(i)表示節點之間的邊數;K(i)表示一階鄰域中的節點數。

節點的介數中心性是一種全局幾何度量,能夠有效反映網絡中單個節點的重要性。節點i的介數中心性BC(i)見式(4)。

BC(i)=∑s≠i≠tσst(i)σst。(4)

式中:σst是從節點s到節點t的最短路徑總數;σst(i)是經過節點i的路徑數。

緊密中心性反映了節點與網絡內其他節點的接近度。節點i的緊密中心性基于從該節點到網絡中所有其他節點的平均距離di。di的倒數定義為節點i的緊密中心性Cc(i),見式(5)、式(6)。

di=1n-1∑j≠idij,(5)

Cc(i)=1di=n-1∑j≠idij,(6)

式中:n表示節點i所屬的網絡中的節點總數;dij表示節點i和j之間的最短距離。

一個節點的重要性不僅取決于其鄰居節點的數量(即該節點的度),還取決于其鄰居節點的重要性。與之相連的鄰居節點越重要,則該節點就越重要。xi是節點i的重要性度量,該節點的特征向量中心性EC(i)表示為

EC(i)= [WTHX]x[WTBX]i=c∑nj≠i[WTHX]a[WTBX]ij[WTHX]x[WTBX]j,(7)

式中:c表示一個比例常數;[WTHX]a[WTBX]ij是網絡的鄰接矩陣。記[WTHX]x[WTBX]=[x1,x2,x3,...,xn]T,經過多次迭代達到穩態后,[WTHX]x[WTBZ]可以寫成如下矩陣形式:

[WTHX]x[WTBX]=c[WTHX]Ax[WTBX],(8)

式中:[WTHX]x[WTBX]表示的是矩陣[WTHX]A[WTBX]的特征值c-1對應的特征向量。

本文整合了疾病與基因的關聯數據及其相關信息,進一步增強了網絡的復雜性和多樣性。將網絡結構特征與網絡嵌入算法所得到的向量表示進行融合,作為致病基因預測的最終特征輸入。鑒于網絡中節點的結構特征通常以相似度值的形式體現,直接采用拼接的策略以用于特征信息的融合,進一步提升疾病相關基因預測的精度和可靠性。

2.4?余弦相似度計算

通過重建低維向量表示來測量節點對(疾病和基因)的余弦相似度。以疾病基因對的相似度計算為例,給定疾病vdx和基因vdy,N(vdx)和N(vdy)是它們的向量表示。 然后,根據余弦相似度算法,可以計算出疾病-基因對的余弦相似度,算法如式(9)所示:

cos(N(vdx),N(vdy))=cos(x,y)=x·yx·y。(9)

在應用基于向量表示的余弦相似度算法后,網絡中疾病與基因對的相似度可以被準確地計算出,從而測量它們之間的相關性。再將查詢的疾病與候選基因的相關性進行排序,可以得到特定疾病的候選基因的排名列表。

3?實驗與結果分析

3.1?實驗環境

本文的全部實驗均在Window10操作系統下完成,所有的代碼均使用Python編程語言實現,并在PyCharm 集成開發環境下進行編寫與調試,實驗所使用的軟件環境和硬件環境的相關信息分別如表2與表3所示。

3.2?設置參數

固定超參數能夠確保不同網絡嵌入算法之間具有可比性,并增強實驗結果的穩定性,減少隨機性對性能評估的影響。因此,對每個網絡嵌入算法選擇固定的超參數。對于DeepWalk,隨機游走的步數設置為80,每個節點隨機游走次數為40,窗口大小為10,嵌入維度為128;Node2vec與DeepWalk的參數設置大致相同,同時還需要考慮控制隨機游走策略的2個超參數p和q,本文設置p=1.5和q=1.5;LINE方法中的參數設置包括一階鄰居和二階鄰居,采樣數都設置為5,負采樣率為0.5;SDNE的參數設置:隱層節點數為128,迭代次數為100次,其他參數默認。

3.3?評價指標

在評估疾病基因預測方法性能上,本文采用以下指標:準確率(accuracy,AC)、精確率(precision,PR)、召回率(recall,RE)、F1得分(F1-score,F1)和曲線下面積(area under the curve,AUC)。這些指標是評估分類器質量的常用指標,可以更全面地評估疾病基因預測方法的性能,其中F1得分通常用于綜合考慮精確率和召回率,特別適合在正負樣本不平衡的情況下進行評估。

3.4?疾病基因恢復實驗與結果分析

為了評估網絡嵌入算法在邊缺失情況下的性能,將已知的邊模擬為缺失,然后嘗試恢復這些缺失的邊。這有助于評估算法在網絡重建和邊預測方面的效果,以及其對網絡拓撲結構的理解程度。如果網絡嵌入算法能夠在恢復實驗中表現出色,那么其通常也能在預測任務中表現得更好。

首先,為了模擬網絡中邊的缺失情況,本文通過從疾病基因異構網絡中隨機刪除一些邊來實現。這些已刪除的邊為后續恢復實驗的樣本。其次,采用多種網絡嵌入算法,如DeepWalk、Node2vec、LINE和SDNE,以學習網絡中節點的低維向量表示。這些向量表示有助于更好地理解網絡結構。最后,分別在 DG、DGG 和 DGS 網絡上進行恢復實驗,利用學習到的節點向量表示,試圖恢復已刪除的邊。計算每個已刪除的邊樣本在向量空間中的相似度分數,并將這些分數用于預測是否應該將邊恢復。如果計算出的2個節點的相似度的值大于0.5,則將邊恢復;若低于0.5,則視為2個節點無關聯。這一系列實驗評估了不同算法在恢復任務上的性能,從而更深入地了解它們在疾病基因網絡中的表現。每種算法的恢復性能如表4所示,每種算法在同一網絡上的最佳性能以粗體標記。由表4可知,Node2vec 算法對邊的恢復性能最好。因此,本文后續實驗都是基于Node2vec算法。此外,使用DGS和DGG網絡算法比使用DG網絡算法表現更好,這表明考慮更多信息后(例如疾病表型關聯或PPI網絡),可以提高疾病基因關聯的恢復性能。

3.5?致病基因預測實驗與結果分析

為了提高疾病基因的預測性能,本文選擇與疾病或基因緊密相關的數據源進行融合,例如PPI、基因本體和疾病表型。然而,不適當的數據融合也會導致不利影響。因此,研究來自不同數據源的信息融合如何影響疾病基因預測方法的性能很有必要。

通過采用疾病基因及其相關數據的各種組合方式,本研究構建了6種不同的網絡(DG、DGG、DGS、DGGG、DGSG 和 DGSGG),并將這些網絡用作實驗數據集。由于預測階段主要針對疾病與基因之間的相關性,因此在提取訓練樣本的過程中,隨機選擇了疾病基因子網絡中50%的連邊,將它們作為正樣本,并從原網絡中移除了這些選定的連邊。處理后的網絡用于接下來的特征提取環節。首先,在預測階段,隨機抽取一定數量的負樣本,正負樣本的比例為1∶1。其次,為所有提取的樣本分配相應的標簽。最后,采用五折交叉驗證的方法,將數據集劃分為5個子集。每次實驗,其中4個子集用于訓練模型,而剩余的1個子集用于測試。為了確保實驗的可靠性和魯棒性,更準確地評估DGPMIF方法在預測任務中的性能,實驗重復5次,每次使用不同的子集作為測試集。最終,取5次實驗結果的平均值作為最終的性能評估結果。此外,其他子網不會被處理。獲得4類節點(疾病、基因、疾病表型、基因本體)的向量表示以及對應的結構特征后,根據節點類型進行拼接,作為測試樣本的特征表示。為了結果的一致性,將結構特征拼接在疾病或基因節點向量表示的后面。

表5展示了使用每個網絡的疾病基因預測方法的性能,并用粗體文本標記了所有網絡中的最佳性能。

由表5可知,相較于DG網絡,DGG網絡的AUC增加了0.017 1,而DGS網絡的AUC增加了0.019 3,表現出更優的預測表現。然而,在DGG網絡和DGS網絡的基礎上,

整合基因本體信息的DGGG網絡和DGSG網絡的改進效果并不顯著。同時,DGSGG網絡的AUC低于除DG網絡之外的其他4個網絡。顯然,納入更多信息的DGSGG網絡并沒有顯著改善預測結果,這表明疾病表型關聯和PPI網絡信息之間可能存在干擾。此外,在所有實驗結果中,融合網絡結構特征的DGSG(DGSG+SF)網絡(AUC:0.954 1,AC:90.21%,F1:0.913 2,PR:0.923 8,RE:0.902 9)取得了最佳性能。在同一網絡中,融合網絡結構特征的評價指標優于僅使用向量表示。這說明網絡的結構特征能夠增強網絡嵌入算法得到的向量表示,對提升預測效果具有積極作用。

3.6?與其他方法對比實驗與結果分析

所提出的DGPMIF方法通過融合網絡結構特征增強低維向量表示來預測潛在的致病基因。為了驗證此方法的優越性,通過引入RWRH[6]、RWR[7]、BiRW[8]、PRINCE[8]和CIPHER[22]5種經典算法進行比較。而在致病基因預測中,通常會有大量的候選基因,但實際上只有其中的一小部分是真正的致病基因。為了提高預測的精確性,將每種疾病相關的基因排名列表獲得后,選擇前k個基因(TOP@k)作為候選基因,其中k分別取值為3、5、10,并使用精確度和召回率作為評價標準。

融合網絡結構特征的DGPMIF方法與其他方法的預測結果詳見表6。通過考察前k個候選基因的精確率和召回率可知,融合網絡特征算法在這2個評估指標上的表現均優于未融合網絡特征的算法。對比5種經典基線方法發現,RWRH展現了最佳性能。從表6中可以看到,當k設定為3時,RWRH的PR值為0.323 4,RE值達到0.546 9。采用DGG網絡的預測性能低于RWRH,但DGG+SF網絡的預測性能高于RWRH,表明網絡特征的融合可以在一定程度上提高疾病基因預測的性能。采用DGSG+SF網絡取得了最好的性能,與DG網絡相比,PR@3和RE@3分別提高了0.108 5和0.239 3,表明選擇與疾病或基因密切相關的數據進行有效整合能夠增強疾病基因預測。將其與RWRH相比,PR@3和RE@3分別提高了0.105 0和0.142 8,表明與經典算法相比,多信息融合方法在疾病基因預測方面展現出了更為優異的表現。綜合來看,無論k取何值,幾種典型方法的預測性能均低于融合網絡特征的多信息融合方法。因此,DGPMIF方法確實能夠有效提升預測潛在致病基因的性能。

3.7?案例研究與結果分析

通過計算某種疾病與數據集中所有基因之間的相關性得分,得到此疾病的候選基因排名列表。為了闡明生物學意義,使用 DGSG+SF網絡評估了DGPMIF對肺癌 (C0007120)和胰腺癌 (C0346647)這2種疾病的預測效果。這2種疾病的前20個預測基因如表7所示。首先,從數據集中篩選出這2種疾病已知的關聯基因,以此作為標記數據進行模型訓練。其次,模型訓練完畢后,將其應用于數據集中剩余的未標記基因數據,計算這些基因與特定疾病的關聯概率,進而對未知關聯基因進行排序。為驗證模型的預測效果,參考了MalaCards在線生物數據庫,并查閱了相關的科學文獻,核實預測出的候選基因與特定疾病是否存在已知關聯。

就肺癌而言,前 20 個候選基因中的 DLEC1(排序為2)、PIK3CA(排序為12) 和 PARK2 (排序為14)是數據集中的已知基因(標記為 TS)。此外,在MalaCards數據庫中,SLC22A18(排序為1)、MXRA5(排序為3)、IRF1(排序為4)、MAP3K8(排序為5)、BRAF(排序為6)、PPP2R1B(排序為7)、KRAS (排序為8)、ERBB2 (排序為9)、TERT (排序為13)、MIR4435-2HG (排序為16)、LNCR3 (排序為17) 和 MAP2K2 (排序為20) 是已知的肺癌基因(標記為MC)。為了全面評估候選基因,對已發表的生物醫學文獻進行檢索以進行驗證。排除未驗證的KLLN(排序為10)和RNF6(排序為11),剩余3個基因UGT2B17(排序為15)、MIR494(排序為18)和RAD54L(排序為19)(標記為DG)可以得到佐證并有相應的文獻證據。GALLAGHER等[23]指出,UGT2B17的缺失與女性的肺癌風險顯著增加有關。此外,文獻[24]也提到了MIR494與非小細胞肺癌的相關性。

與此同時,有研究進一步揭示了RAD54L在肺癌進展中所扮演的角色[25]。

此外,文獻[26]揭示了TSG101在胰腺癌的發生和進展中的核心作用。有研究強調了KLF6通過上調轉錄因子3 (ATF3)的激活從而抑制胰腺癌進展的機制[27]。文獻[28]指出了DLC-1可能在胰腺癌的致病機制中扮演關鍵角色。文獻[29]進一步印證了胰腺癌與HTRA1之間的聯系。這些研究表明,DGPMIF方法預測出的新基因在很大程度上與特定疾病真正相關,從而為多信息融合策略的有效性提供了進一步的支撐。

4?結?語

本文提出的DGPMIF方法,通過構建疾病基因異構網絡,整合更多與疾病或基因相關的信息,應用融合網絡結構特征的方式,致力于解決異構網絡中致病基因的預測問題。

1)DGPMIF方法聚合了多個重要的信息源,創建了一個綜合網絡,涵蓋了疾病與基因的關聯信息以及其他相關信息,從而深度挖掘和理解了疾病與基因之間的復雜關系。

2)DGPMIF方法不僅僅局限于單一層面的網絡分析,而是通過融合多層面的網絡結構特征,準確捕捉和呈現了網絡中節點間的關系。這一多層面特征融合方法使得模型更加精準地理解了網絡的動態和復雜性,為研究提供了新的思路和可能性。

DGPMIF方法在疾病預測中取得了優異成績,結合其他生物醫學特征,如藥物靶點網絡、組織特異性網絡和基因表達等,或許能夠進一步增強其預測能力。這是未來研究的新方向和研究重點。

參考文獻/References:

[1]

HINDORFF L A,SETHUPATHY P,JUNKINS H A,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(23):9362-9367.

[2]?VASIGHIZAKER A,JALILI S.C-PUGP:A cluster-based positive unlabeled learning method for disease gene prediction and prioritization[J].Computational Biology and Chemistry,2018,76:23-31.

[3]?ZHANG Yan,XIANG Ju,TANG Liang,et al.Pgagp:Predicting pathogenic genes based on adaptive network embedding algorithm[J].Frontiers in Genetics13,2022,13:1087784.

[4]?BARABASI A L,GULBAHCE N,LOSCALZO J.Network medicine:A network-based approach to human disease[J].Nature Reviews Genetics,2011,12(1):56-68.

[5]?GONZALEZ M W,KANN M G.Protein interactions and disease[J].PLoS Computational Biology,2012,8(12):e1002819.

[6]?LI Yongjin,JAGDISH C P.Genome-wide inferring gene-pheno-type relationship by walking on the heterogeneous network[J].Bioinformatics,2010,26(9):1219-1224.

[7]?KHLER S,SEBASTIAN B,DENISE H,et al.Walking the interactome for prioritization of candidate disease genes[J].The American Journal of Human Genetics,2008,82(4):949-958.

[HJ1.9mm]

[8]?VANUNU O,MAGGER O,RUPPIN E,et al.Associating genes and protein complexes with disease via network propagation[J].PLoS Computational Biology,2010,6(1):e1000641.

[9]?XIE Maoqiang,HWANG T,RUI K.Prioritizing disease genes by bi-random walk[C]// Knowledge Discovery and Data Mining.Berlin:Springer,2012:292-302.

[10]ZAKERI P,ELSHAL S,MOREAU Y.Gene prioritization through geometric-inspired kernel data fusion[C]//2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).Washington:IEEE,2015:1559-1565.

[11]PEROZZI B,AL-RFOU R,SKIENA S.DeepWalk:Online learning of social representations[C]//In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:Association for computing machinery,2014:701-710.

[12]GROVER A,LESKOVEC J.Node2vec:Scalable feature lear-ning for networks[C]// KDD ′16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l.]:[s.n.],2016:855-864.

[13]TANG Jian,QU Meng,WANG Mingzhe,et al.LINE:Large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web.Florence:International World Wide Web Conferences Steering Committee,2015:1067-1077.

[14]XIANG Ju,ZHANG Ningrui,ZHANG Jiashuai,et al.PrGeFNE:Predicting disease-related genes by fast network embedding[J].Methods,2021,192:3-12.

[15]YANG Kuo,WANG Ruyu,LIU Guangming,et al.HerGePred:Heterogeneous network embedding representation for disease gene prediction[J].IEEE Journal of Biomedical and Health Informatics,2019,23(4):1805-1815.

[16]MENCHE J,SHARMA A,KITSAK M,et al.Disease networks[J].Uncovering Disease-disease Relationships Through the Incomplete Interactome.Science,2015,347(6224):1257601.

[17]WANG Daixin,PENG Cui,ZHU Wenwu.Structural deep network embedding[C]//In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l]:ACM,2016:1225-1234.

[18]GOH K I,OH E,KAHNG B,et al.Betweenness centrality correlation in social networks[J].Physical Review E,2003,67(1/2):017101.

[19]BARTHELEMY M.Betweenness centrality in large complex networks[J].The European Physical Journal.B,2004,38(2):163-168.

[20]SALAVATI C,ABDOLLAHPOURI A,MANBARI Z.Ranking nodes in complex networks based on local structure and improving closeness centrality[J].Neurocomputing,2019,336:36-45.

[21]BONACICH P.Some unique properties of eigenvector centra-lity[J].Social Networks,2007,29(4):555-564.

[22]WU X B,JIANG R,ZHANG M Q,et al.Network-based global inference of human disease genes[J].Molecular Systems Biology,2008,4:189.

[23]GALLAGHER C J,MUSCAT J E,HICKS A N,et al.The UDP-glucuronosyltransferase 2B17 gene deletion polymorphism:Sex-specific association with urinary 4-(methylnitrosamino)-1-(3-pyridyl)-1-butanol glucuronidation phenotype and risk for lung cancer[J].Cancer Epidemiology Biomarkers & Prevention,2007,16(4):823-828.

[24]LU Bing,LYU Hong,YANG Zhiqiang,et al.LncRNA PCAT29 up-regulates the expression of PTEN by down-regulating miR-494 in non-small-cell lung cancer to suppress tumor progression[J].Critical Reviews in Eukaryotic Gene Expre-ssion,2021,31(6):9-15.

[25]LIU Changjiang,REN Wei,ZHANG Zhixin,et al.DNA repair/recombination protein 54L promotes the progression of lung adenocarcinoma by activating mTORC1 pathway[J].Human Cell,2023,36(1):421-433.

[26]ZHU Yufu,XU Yang,CHEN Tianze,et al.TSG101 promotes the proliferation,migration,and invasion of human glioma cells by regulating the AKT/GSK3 β/β-Catenin and RhoC/cofilin pathways[J].Molecular Neurobiology,2021,58(5):2118-2132.

[27]XIONG Qunli,ZHANG Zhiwei.YANG Yang,et al.Krüppel-like factor 6 suppresses the progression of pancreatic cancer by upregulating activating transcription factor 3[J].Journal of Clinical Medicine,2023,12(1):200.

[28]ZHENG Zhenjiang,TAN Chunlu,XIANG Guangming,et al.Deleted in liver cancer-1 inhibits cell growth and tumorigenicity in human pancreatic cancer[J].Oncology Letters,2013,6(2):521-524.

[29]CHENG Hao,ZHU Hao,CAO Meng,et al.HtrA1 suppresses the growth of pancreatic cancer cells by modulating Notch-1 expression[J].Brazilian Journal of Medical and Biological Research,2018,52(1):e7718.

收稿日期:2023-09-09;修回日期:2023-12-26;責任編輯:王淑霞

基金項目:河北省省級科技計劃資助項目(23550801D)

第一作者簡介:

馬金龍(1981—),男,河北定州人,副教授,博士,主要從事生物信息學方面的研究。

E-mail:mzjinlong@163.com

馬金龍,翟美靜.基于多信息融合的DGPMIF致病基因關聯預測方法

[J].河北工業科技,2024,41(1):27-35.

MA Jinlong, ZHAI Meijing. A disease-gene association prediction method of DGPMIF based on multi-information fusion

[J]. Hebei Journal of Industrial Science and Technology,2024,41(1):27-35.

猜你喜歡
異構關聯預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
試論同課異構之“同”與“異”
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“一帶一路”遞進,關聯民生更緊
奇趣搭配
不必預測未來,只需把握現在
異構醇醚在超濃縮洗衣液中的應用探索
智趣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合