?

融合共現和語義信息的藥對提取方法研究及應用*

2024-04-16 13:18胡孔法
世界科學技術-中醫藥現代化 2024年1期
關鍵詞:方劑關聯處方

唐 靜,楊 濤,2,朱 垚,胡孔法,4**

(1.南京中醫藥大學人工智能與信息技術學院 南京 210023;2.江蘇省中醫藥健康養生技術工程研究中心南京 210023;3.南京中醫藥大學第一臨床醫學院 南京 210023;4.江蘇省中醫藥防治腫瘤協同創新中心南京 210023)

藥對,又稱對藥、兄弟藥、姊妹藥,在臨床上的構成搭配相對固定,是中藥復方配伍中最簡單、最基本和最常見的用藥形式[1]。藥對按照一定規則進行配對,例如除單藥外的“六情”理論,在臨床實踐中,將療效或性能相近的藥物聯合使用,通過相使、相須、相殺、相畏等配伍作用關系,使其達到一定的增效減毒等效用。藥對,是單味中藥到方劑應用的過渡環節,是方劑配伍規律研究的切入點,是中藥復方所含規律性特征與辨證施治的內涵體現[2]。深入理解藥對之間蘊含的配伍規律,對剖析方劑的構成以及明確方義大有裨益,例如通過研究探析“方書之祖”張仲景方藥的對藥組合,從而得出陰陽相配、寒熱相配、氣血相配、補瀉相配、散斂相配等歸類[3],掌握其使用藥對的思想方法,從而進一步指導臨床實踐。不僅益于古方的挖掘應用,更為創新中藥、創組新方奠定基礎并提供理論支撐。隨著現代醫藥學的發展,對于藥對的研究越來越深入,例如“當歸-黃芪”“三七-丹參”等[4],也在從證明“藥對的有效性”轉為“為何有效”“如何更有效”,可見藥對所蘊含的價值舉足輕重。

藥對不是一成不變的,也不是每一首方劑都可使用一個藥對[4]。藥物的組配規律仍會有新的發現,如何利用現代技術快速篩選出潛在藥對,如何對藥對進行多角度、深層次的分析挖掘,為藥對的提取提供方法支撐,是中醫藥傳承與今后研發的重要研究課題之一。

目前,藥對的研究已逐漸深入,除了在理論、臨床、實驗方面的研究,還有計算機方法的研究,例如數據挖掘技術主要針對于中醫癥狀間、用藥間的規律[5]。在方劑學中主要使用的方法有關聯規則法[6](如Apriori、Fp-growth、Eclat 等)、聚類分析、分類算法等,利用文獻和數據庫數據,例如《傷寒論》、臨床門診數據等,挖掘潛在的藥對或藥物組合,在病-證-癥-方-藥、復方配伍規律、類方等研究中有著廣泛前景。劉娟等[7]運用關聯規則的方法將源自《中醫大辭典》中的1046首脾胃方,從數據關聯層面證實了例如“白術-茯苓”等已知藥對的常用性,并發現了未知藥對“陳皮-山楂”等,為探索臨床研究發展之路提供思路。曾珉等[8]、甘德成等[9]、姜平等[10]、張偉健等[11]基于關聯規則和聚類分析等算法對核心藥物組合與組方規律進行分析,獲得新的關鍵組方思路,從而探尋疾病治療的用藥規律;姚鑒玲等[12]提出一種融合組合賦權、聚類、決策、評價等算法用于配方設計及評價;Wang 等[13]通過利用SVM 對方劑效果進行了分類預測,從而證實“君臣佐使”的方劑結構與藥物間的關聯;又或是基于中醫藥類傳承平臺對藥對進行提取[14]等。

目前研究者對中藥配伍規律挖掘方法的選擇上具有局限,研究模式相似,多利用關聯規則算法進行核心用藥的挖掘,或是對高頻藥物進行聚類分析其類別功效等。然而,關聯規則分析結果存在大量冗余規則,聚類算法未能全面考慮藥物重要特性對方劑的影響,分類算法對于歸納方劑蘊含知識存在不適用問題[15]等??紤]到方劑數據所蘊含的不單是統計規律,更應結合文本語義特征進行分析,例如方劑中各藥物間的排序、文本語義間的關系。

語義信息,也稱意義信息,在維基百科中,語義信息是指有意義的數據提供的信息,關注的是詞、短語、符號等之間的關系;在自然語言處理中,即上下文信息,也就是指一個詞與其周圍詞之間的關聯。對語義信息的計算,即解釋自然語言句子各部分(詞、詞組、句子、段落、篇章)的含義。處方數據并非屬于嚴格的語義范疇,有著索引、語調、情態(《語言學綱要》);處方數據由索引(藥物)構成,通過研究詞與詞之間的關系,研究文本的語義信息,即中藥處方中每味藥物之間的關系。語義具有領域性特征,不屬于任何領域的語義是不存在的[16],已經學習到人類語言含義的系統可以做一些諸如回答有關世界事物的問題,即通過學習一些將意義反映到語言形式中的知識,可以使系統具有解答相關領域問題的能力[17]。中藥方劑文本是名老中醫將經驗以語言文本形式反映的知識,有著巨大的價值,也存在著相關領域的語義特征。如果忽視對方劑內部語義或詞序信息的考量,會錯失一些重要信息。丁侃[16]在梳理歸納中醫古籍知識時考慮到語義異構,運用中醫語義元數據描述知識單元內容特征,同時,語義也具有表達性。通過引入語義維度,可以在語義空間上表示藥物詞語,方便計算機處理,除此以外還可以為后續研究提供便利,例如:對詞語維度進行降維,在一定程度上可以減少噪音、方便可視化觀察詞語間的關系等。目前在圖像的識別與多目標跟蹤、自然語言處理的命名實體識別等有著較為廣闊地應用,例如衡紅軍等[18]對文本進行編碼標記,通過語義特征與句法特征等對語句關系的客體位置做出預測標記,從而完成了三元組的提取。

鑒于此,本文提出一種在詞頻分析的基礎上,從語義角度對潛在藥對做進一步篩選的算法。引入語義維度,將處方中每味藥物作為一個詞,使用自然語言處理過程中的詞嵌入技術,能夠將藥物詞文本映射到語義向量空間,用向量的形式表示藥物詞匯,向量中也包含詞與詞之間的關系,用以研究文本的語義信息,即中藥處方中每味藥物之間的關系。以條件概率作為篩選藥對的依據之一,同時結合方劑中藥物間的語義信息,以語義相似度為另一評價指標,對潛在候選藥對進一步篩選提供依據。

1 融合共現和語義信息的藥對提取算法

1.1 相關定義

1.1.1 向量內積

向量的內積,也被稱為向量的數量積,或點乘。對兩個向量做點乘運算,即對兩向量的對應位先相乘后求和。利用點積可計算對應余弦值,點積及余弦值一般可用于相似性度量。一般訓練時使用內積作為相似度可以保留詞的頻率信息。對于n維向量的內積定義如下:

1.1.2 共現概率比

共現是指單詞i 與單詞j 在一定范圍內共同出現的次數。共現概率是指單詞j 出現在單詞i 上下文的概率。共現概率比是指共現概率的比率[19],其定義如下:

式(2)中:ω ∈Rd表示d 維詞向量,∈Rd表示單詞i 與單詞j 的上下文詞向量;式(3)中:Pij為單詞j 出現在單詞i 上下文的概率。同時共現概率比的值是有一定規律的,且該規律可通過詞向量呈現[19-20],對上述共現概率比進行向量差分與點積表示可得:

因此共現概率矩陣中所蘊含的信息可以通過詞向量表示,即該值能夠反應詞向量之間的相關性見表1。

1.2 算法流程

掃描規范化的方劑數據集,每一行作為一條獨立的處方數據文本輸入,同時輸入的還有最小出現頻次counts、維度vector、閾值min1、min2,min1 主要采用條件概率的方法初步篩選藥對,min2 主要是基于語義信息用于語義相關的藥對提取。根據輸入數據集統計任意兩味藥物共同出現的次數,沒有則記為“0”,有則進行累加操作,以此構建協同共現矩陣來計算藥物間的條件概率見圖1a。因考慮到篩選藥對的雙向關聯程度,故以藥物雙方各自為條件,將兩條件概率采用乘法計算方式獲取雙向的關聯信息,并以min1為界篩選出潛在候選藥對。與此同時,構建基于窗口的詞-上下文協同矩陣并與上述協同矩陣取共現交集,并構建字典、生成詞向量,此時各藥物可由數字化向量進行表示見圖1b;以藥物向量之間的內積計算其相似度并將結果進行排序,以min2為界篩選出候選藥對并與前者篩選結果取交集,篩選出相同的藥物組合作為潛在藥對。算法核心步驟如下表2所示。

圖1 算法示意圖

表2 算法核心步驟

2 實驗及結果分析

2.1 數據來源及數據預處理

本文肺癌臨床數據來源于由國醫大師周仲瑛傳承工作室提供的周仲瑛教授門診診治肺癌患者的處方用藥數據。按照數據預處理步驟,參照《中華本草》《中國藥典》等對處方數據中的中藥名稱進行規范化處理,例如:糾正錯別字、統一藥物名稱等。經處理共得到1090條處方數據,371味中藥,處理后的數據每一行作為一條處方記錄,每條記錄中不同藥物以空格間隔。

2.2 實驗設置

為了驗證本文所提算法的有效性及實用性,將本算法提取結果與經典的數據挖掘算法Apriori 進行比較。

①按照2.2 中算法流程進行實驗,構建共現矩陣計算任意兩味藥物間的條件概率,以此獲得兩者間的關聯關系從而篩選出潛在候選藥對;通過設置不同的配置參數,例如最小頻次counts、維數vector 以及閾值參數min1、min2 觀察不同參數下結果數量的變化,選擇合適的參數篩選出潛在藥對。②利用Apriori 算法提取潛在的藥物關聯規則,為保證實驗的對照與均衡性原則,Apriori 算法的參數設置與①中提及的最小頻次counts 有關,因此會依照counts 結果設置該算法的最小支持度。③最后結合中醫理論總結上述發現的潛在藥對并評價實驗結果。

2.3 實驗結果

2.3.1 融合共現和語義信息的藥對提取算法實驗結果

(1)設定閾值min1 自0.0 至1.0,步長0.1,并以min1 的閾值區間作為橫坐標,初步篩選的藥對數作為縱坐標,得到以閾值min1為指標的藥對分布情況見圖2a;考慮到語義信息提取藥對時,各變量對結果的影響,諸如藥物出現的最小頻次數目、生成語義向量的維度大小等因素,本算法采用固定詞向量方法計算藥物向量(原始方法是通過在共現矩陣中隨機采集一批非零詞對作為訓練數據進行初始化詞向量,存有一定的隨機性與不可復現性),以相似度≥90%,即min2=0.9 為例,以選取頻次數目及維度大小盡可能小、且篩選結果趨于穩定為原則,以初步篩選藥對數作為縱坐標,以藥物語義維度作為橫坐標,得到基于語義信息的藥對數目變化情況見圖2b。

圖2 實驗閾值設置

從圖2a可以看出:采用條件概率的方法初步篩選藥對時,隨著閾值區間的增大,對應的潛在候選藥對數量急劇減小,在區間[0.4,0.5)間內所擁有的藥對數達58對,且后續區間的曲率變化逐漸平緩,截至區間[0.4,1.0)擁有的藥對數達到147對。從圖2b可以看出:當最小頻次為1、3、4時,在維度為450時初步篩選結果仍有波動;當最小頻次為5時篩選的結果與最小頻次為3和4時的結果在數量上差距不大,且從250維開始篩選結果也是趨于穩定的狀態。由此將上述相結合進一步進行篩選,可以得到融合共現與語義信息的不同語義閾值區間上的藥對分布情況見圖2c;從圖2c 可以看出:在語義相似度區間[50%,60%)內得到的結果占目前已出現結果的比例較高,截至區間[50%,100%)擁有的藥對數達到88 對,以上述閾值區間分布作為橫縱坐標軸,以區間內篩選藥對的數量為豎軸,可以得到藥對的分布情況見圖3,圖中節點大小表示為數量大小各截面代表含義如圖示所示。圖3 中從2 個不同視野觀察藥對分布區間并將藥對出現位置投射至底面便于觀察,從中可以看出以語義相似度50%為截面能夠獲得大部分結果藥對,故從包含藥對數量層面考慮,推薦使用語義相似度50%作為min2的參數。

圖3 藥對分布

綜上,通過設置配置參數最小頻次counts=5、維數vector=250、閾值min1=0.4、min2=0.5,計算藥物之間的相似度,并與前者候選藥對結合評判,總結可以得到潛在藥對結果共88對。

(2)按上述算法流程進行實驗,篩選得出潛在藥對,例如“北沙參-南沙參”“炒麥芽-炒谷芽”“焦神曲-焦山楂”等,前20項見表3。為了直觀展示篩選結果繪制了藥物網絡圖見圖4a 及經PCA 降維后的3 維藥物散點圖見圖5a,圖中結點顏色由藍至紅表示藥物的頻次,頻次越高越偏紅,越低越偏藍。

圖4 藥對網絡圖

表3 潛在藥對Top20(加入語義信息)

為了實驗的完整性與直觀比較進行消融實驗。只考慮基于統計學習理論條件概率的方法進行實驗,前20 項結果見表4,對應藥物網絡圖見圖4b,在考慮到藥對相互之間的關聯關系后篩選得到147對藥對信息,提取的信息均為藥對信息,但篩選數量仍較多,依舊需進一步人工篩選研究對象。同時以藥物在各藥方中出現的位置為維度信息,構建藥物向量,同樣經PCA降維后形成的散點圖見圖5b。

(3)為了實驗的準確性,請國醫大師周仲瑛傳承工作室專家對最終藥對篩選結果進行藥對標引,根據標引結果,以閾值區間作為橫坐標,以區間內“是藥對”的比率作為豎軸,得到累計區間“是藥對”比率見圖6a。同時對結果標注,分布見圖6b,標注原則為:“確實藥對”,即按照周老同類相須理論與異類相使理論標引;“同方藥組”,即參照異類相使關系;“共現藥物”,即同類相須部分是周老按照現代藥理研究劃歸同類的藥物。從圖6a 可以看出,在語義相似度區間[90%,100%)內得到“是藥對”的結果準確性比例較高,隨著語義相似度區間的擴大,有發現新的藥對,但準確率逐步下降。故從準確率層面考慮,推薦使用語義相似度90%作為min2的參數,總結可以得到潛在藥對結果共33對,其中是藥對占有23對。

圖6 藥對結果

此外,從圖6b 可以看出,“是藥對”中“同方藥組”在語義高閾值區間出現頻次較多,此為方劑中的藥對,例如四君子湯中的白術、茯苓、甘草等組合;“確實藥對”“共現藥物”在區間[90%,100%)也占有一定比率。例如由女貞子與墨旱蓮組成的二至丸,黃連與吳茱萸構成的左金丸等均為“確實藥對”;而“共現藥對”是周老所使用的不同抗腫瘤藥物,例如澤漆與山慈菇、太子參與南沙參、北沙參等,為后續進一步研究周老用藥配伍規律可做參考。

2.3.2 Apriori算法實驗結果

為保證本實驗使用數據頻次的一致性,設置最小支持度為0.0045,僅考慮“1-項集”,得到關聯規則共12 766 條。設定置信度自0.0 至1.0,步長0.1,并以置信度的閾值區間作為橫坐標,得到的關聯規則數作為縱坐標,得到關聯規則分布情況見圖7;以支持度與置信度分布為第一第二順序,位于前10 的關聯規則見表5。由于關聯規則存在由前項指向后項的方向關系,故繪制網絡圖時采用帶有箭頭指向的有向圖見圖8。

圖7 關聯規則分布情況

圖8 Apriori藥對網絡圖 (min Sup=0.045)

表5 Apriori算法關聯規則藥對提取結果(Top10)(min Sup=0.0045)

從圖7 與圖8 可以看出:在保障頻次范圍區間的同時,Apriori 算法所挖掘出的關聯規則數量較多,若增設置信度的條件為(0.9,1.0]仍有380 條關系,若擴大置信度范圍,所含關聯規則數將成倍增長,且需要人工比對整理;對于大樣本數據,整體網絡復雜,不便于后續研究的觀察與分析。

2.4 結果分析及討論

從詞頻角度出發雖然考慮到了藥物兩兩之間的雙向關聯關系,但面對全新的數據往往會篩選出大量的潛在候選藥對(使用本文數據篩選出147對)。通過前20項結果與處方詞頻信息比對可知:若單從詞頻共現角度考慮,得出的結果容易受到小樣本的影響,存在數據偏倚??紤]此因素并結合大數定律,在加入語義信息時從相對合適的角度設置最小詞頻以減少小樣本概率的發生,同時可以縮減潛在藥對范圍。由于每味藥對應眾多化學成分、靶點信息等,在確立需要進一步研究的藥對后,也需要一定的時間精力進行研究證明其有效性、安全性等,因此結合語義角度進行分析,合理地縮小潛在藥對的范圍是很有必要的。在藥物數量上,加入語義信息的篩選結果涉及藥物更少。臨床處方往往有章可循,在處方中,各味藥物由于在治療用途和方劑構成、劑型上發揮的作用各異,通常會依據其作用性質按序排列,比如:君藥、臣藥、佐藥、矯味藥、賦型藥等,故藥物之間的順序也存在著一定的聯系。在中醫處方數據中訓練生成藥物詞向量,使得詞向量獲得適用于本數據的領域知識,即每一味藥使用一定維數的向量表示,通過基于統計的文本相似度計算,以此表示藥物之間的相似度,最終得到的共現結果具有詞頻與語義上的相似性。

從繪制的散點圖對比可知:通過降維后的散點圖對比可知加入語義信息后藥物的分布比不加語義信息的分布更均勻,未加入語義信息的藥物分布聚集情況更明顯。且通過旋轉角度,發現加入語義信息的藥物分布在特定視角中存在可切分的范圍劃分。

與經典的關聯分析算法比較可知:①關聯規則的挖掘依賴于設置的支持度,即與藥物出現頻次數目有關,本實驗使用數據的頻次區間為[5,977],區間跨度大;當頻次設置較低時,會有大量頻繁項集產生,在保持較低頻次時,各置信區間的結果數目最低有380條,與本文算法提取效果對比明顯;當頻次設置較高時,雖然得到結果數目會減少,但是對于低頻藥物,例如:炒麥芽(頻次36)、炒谷芽(頻次33)、烏梅肉(頻次7)、胡黃連(頻次5)等藥物可能會被排除,不參與關聯規則分析。對于頻次跨度較大的數據,如何合理地設置支持度、置信度等參數需要人工調節比對。②關聯規則結果存在冗余且輸出為單向關系,如“南沙參→北沙參”“北沙參→南沙參”等,需要消耗大量的人工匹配整理時間。而若實驗結果中存在A→B 卻未存在B→A 的規則,對其結果也缺乏一定的可解釋性,無法在關聯規則層面確切說明其身為藥對的價值,反而帶來一定的局限性。此外,通過繪制對應的網絡圖發現從可視化角度,此算法結果涉及結點多且無法直接看出藥物間的關系。通過上述對比,本文算法包含的頻次范圍更為寬泛,且考慮到藥物間雙向關聯程度與藥物文本語義間的相似度,從不同維度保證藥對的有效提取。

肺癌是原發性支氣管癌的簡稱,周老認為肺癌的主要病機為痰瘀郁肺,治療大法以抗癌祛毒為基礎,消癌解毒、化痰消瘀、益氣養陰[21]。藥對使用基于一定規則的兩味藥物,從而達到一定的增效減毒等效用,例如:白花蛇舌草的作用是清熱解毒,在臨床上經常與山慈菇等中藥相配用以抗腫瘤;當痰毒明顯,當化痰解毒,例如:山慈菇、炙僵蠶等。肺癌早期病位在肺,亦影響他臟,致脾胃功能不佳,故治療時須調護脾胃。麥芽性味甘,平;歸于脾、胃經。谷芽性味甘,溫;歸于脾、胃經。炒麥芽益氣消食;炒谷芽偏于消食,用于不饑食少。兩者皆有行氣消食,健脾開胃之效。雖然使用頻次較少但亦為有效藥對。

綜上所述,將詞頻與詞向量結合考慮兩兩藥物相互作用關系的同時,也從整體處方入手,探尋文本層面藥對之間的作用關系,能夠有效地縮小篩選研究潛在藥對的范圍。此外,本文在實驗時暫未討論Windows 窗口參數設置情況,Windows 的取值影響著中心詞與周圍詞之間的共現頻次,而中心詞與周圍詞之間位置的關鍵是處方中各藥物的順序。相同藥對在不同處方中的位置關系非一成不變,因此也影響著語義相似度。同時面對復雜處方,處方中藥物的順序與中心詞周圍半徑的設置也有著重要研究價值,后續會進一步開展相關實驗工作。

3 結語

本文通過對藥對篩選的意義以及對以往數據挖掘方法的分析,發現常用的關聯規則、聚類分析等方法的不足,提出了一種基于詞頻結合語義信息的新型藥對發現算法,在詞頻層面確認潛在候選藥對的范圍,即其區分度不大的情況下,從另一層面語義信息考慮,進一步縮小范圍,從而篩選出潛在藥對以此進行更進一步的研究。本算法具有原理簡單、易于實現等特點,本算法的提出可以為挖掘出大量潛在藥對的進一步篩選提供思路,提高中藥藥對研究的效率,同時為挖掘用藥規律提供方法學參考。

猜你喜歡
方劑關聯處方
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
中藥方劑在治療黃褐斑中的應用
《金匱要略》黃芪類方劑探析
人間處方
“一帶一路”遞進,關聯民生更緊
論方劑的配伍環境
奇趣搭配
甘草在方劑中的作用及配伍規律
智趣
解決因病致貧 大小“處方”共用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合