?

基于信任模型的中醫藥方劑相似度計算方法

2021-11-17 07:09金濤偉冷榮偉
計算機仿真 2021年2期
關鍵詞:方劑證型信任度

金濤偉,冷榮偉,張 迪,劉 暢

(長春中醫藥大學,吉林 長春 130117)

1 引言

中醫學方劑即傳承數千年中醫藥知識的主要知識來源,其已經被收錄中醫藥圖書高達上萬種,而方劑就是中醫藥領域內最為關鍵的研究內容,面對海量的方劑數據,要想得到所需求的信息,并非易事。信息技術的逐漸發展,使得人們能夠把各種中醫藥方劑放置在數據庫內永久存儲。當前已經存在數十個中醫藥大學與研究所,構建了不同規模的中醫藥信息數據庫。但由于中醫藥方劑數據內會出現兩種方劑或多種方劑,并且這些方劑會出現十分相似的狀態,例如一種方劑和另外一種方劑相比,缺少一味藥劑組成成分,其它的成分則完全相同,所以,這些方劑之間存在某種關聯或潛在關系。當前,中醫藥方劑相似度模型,大致是通過功效與組成成分兩個方面進行相似度的分析。但只通過這兩方面并不能有效且精確地獲得其相似度數值,過程也較為復雜。

因此,本文提出了一種基于信任模型的中醫藥方劑相似度的計算方法。

2 信任模型下中醫藥方劑相似度計算

信任模型實際上即依靠歷史記錄與其它評測信息對中醫藥方劑的信任值進行計算處理,通過信任值計算,為方劑剔除冗余成分。信任反應即一種方劑對另一種方劑的相似度綜合評價,通過評價對方劑的將來提供可靠的預測。

2.1 直接信任計算

直接信任度即指方劑憑借自身的直接交互經驗,而獲得的對其它方劑的信任程度。

1)滿意度評測:在兩種方劑完成一次交互后,依靠方劑主成分評測方劑次成分提供的藥劑,通過s描述,s∈[0,1],其中,0代表完全不同,1代表完全相同,s的值越大,就代表相似度越高。

2)事務干擾因子:在中醫藥方劑內的各種成分一般不會出現變化,而冗余[1]成分如果添加在主體方劑中,可能會導致方劑的治愈效果降低。所以,在計算方劑信任度時加入事務干擾因子,通過TF來表述事務的關鍵程度。如果TF值越大,就證明事務對方劑的信任值干擾越大,反之,該事務對方劑信任值的干擾就越小。TF∈(0,1],其距離通過主體方劑決定。

擬定方劑主成分i與方劑次成分j之間交互[2]的次數是m次,那么方劑主成分i對方劑次成分j的直接信任評測Evalij是

(1)

其中,s(i,j,m)代表方劑主成分i與方劑次成分j的第m次交互時相似度的評價,TF(i,j,m)代表方劑主成分i與方劑次成分j的第m次交互內事務的干擾因子。

3)時間衰減函數:為了精確估算方劑內主次成分的信任度,信任模型還需要考慮時間因素對信任值的干擾。距離目前時間相差不遠的信任評測更能夠映射方劑主次成分的信任度[3],應給予較高的權重,距離目前時間較遠的信任評測對方劑主次成分信任度估算干擾較小,應給予較低的權重。針對這一問題,本文使用時間衰減函數對不同時間段內方劑的主次成分進行信任度的干擾估算。時間衰減函數[4]如下所示

(2)

其中,ρ代表調節因子,0<ρ<1,a>0,T代表方劑目前的時間區段,Tk代表最近一次交互開始的時間區段,λ代表方劑每天劃分的時間區段數,fk代表時間區段Tk里交互的時間衰減因子。

通過式(2)能夠看出,時間衰減函數f代表所有時間區段里都存在一種對應的衰減因子,同時0

圖1 時間衰減因子變化圖

擬定方劑主成分i與次成分j在Tk個時間區段[5]里完成了n次交互,那么主成分i對次成分j的直接信任值TDij就是

TDij=Evalij×fk

(3)

其中,Evalij代表主成分i對次成分j的直接信任評測,fk代表時間區段Tk的衰減因子。

2.2 推薦信任估算

推薦信任度TR就是,方劑憑借其它方劑的推薦信息而獲得的對某方劑的信任強度。推薦可信度RC就是方劑對另一種方劑所給予的評估信任程度。

評測相似度Simij,在中醫學方劑內,所有方劑的推薦可信度都是不同的,可信度高的方劑供給的推薦信息要比可信度低的推薦更為信賴。在進行評估的時候,會更為愿意相信和自身信息相差無幾的方劑,所以需要給予較高的權重。評測相似度Simij是為了表示方劑主成分i與次成分j的評測相似度。如果Simij值較大,就證明主成分i和次成分j對剩余成分的看法越一致,就是主成分i與次成分j的相似度較高。本文利用余弦相似度函數對兩種成分之間的相似度進行描述,描述的公式如下所示

(4)

其中,C(i,j)代表主成分i和次成分j的公共交互成分集合。

所以,主成分i對次成分j的推薦信任度TRij是

(5)

2.3 綜合信任估算

兩種方劑之間的綜合信任Tij就是通過期間的直接信任與推薦信任所組成的

Tij=αDTij+(1-α)RTij

(6)

認定求信方劑和受信方劑之間的相似度代表期間的綜合信任權值,就是

α=BSij

(7)

在經驗豐富,非常信任自身評測時,能夠挑選人為評定的方式。但通常來講,人為評定會存在較強的主觀意識,合理性與科學性不足,因此就需要通過一些比較客觀的權重進行側向評定。

當前的方劑之間信任值進行交互方劑的信任決策大致存在兩種:

1)依靠綜合信任值的距離挑選交互。

這種方式符合日常的交互習慣,通過挑選信任值最好的兩種方劑進行交互,但這種方式存在缺點:信任值較高的方劑總會被選中進行交互,其它方劑交互的機會就會變少,沒有機會提升自身的信任值,新的方劑與存在交叉[8]交互歷史的方劑比較難出頭,信任度較高的方劑獲得中醫學方劑交互請求較多,壓力較大。

2)憑借綜合信任值收集隨機挑選交互。

如果存在n種備選方劑能夠挑選其進行試用,其綜合信任值是Tij,那么某種方劑j被挑選進行試用的幾率Pj能夠通過式(8)進行估算

(8)

隨機交互方式在確保信任值較高方劑被選中幾率較大基礎下,有效地解決了第一種方式所產生的缺點[9],因此使用該方法進行信任決策,確定方劑交互。

通過信任模型得到了方劑間存在的關聯結果與信任程度,使方劑相似度的計算更為便捷,但由于方劑的種類較多,并且每種方劑之間的組成成分也各不相同,因此需要通過一種分布形式得到計算方劑相似度的規范化因子。

2.4 方劑相似度計算

在得到方劑成分分布的情況下,方劑就能夠通過其相應的主題分布進行映射描述[10],估算兩種方劑的相似度能夠轉換為估算主題分布的相似度。一般狀態下,通常使用DKL來估算幾率分布的尺寸,DKL如下所示

(9)

式中,p與q分別為兩種幾率分布。因為DKL并不是對稱的,就是DKL(p,q)≠DKL(q,p),因此使用DKL的對稱方式,其計算公式如下所示

Dr(p,q)=rDKL(p,rp+(1-r)q)+(1-r)

DKL(q,rq+(1-r)q)

(10)

式中,r代表控制參數。

在中醫藥領域內,中醫學方劑相似度計算里,把文檔、主體、詞項的三者關聯構建轉換為方劑、證型、組成成分。所以在中醫學領域,LDA為在方劑和組成成分之間以幾率的形式構建證型關聯[11],同時依靠方劑、證型幾率分布估算出方劑和方劑之間存在的相似度。在中醫學方劑內所有方劑都是通過一些組成成分形成的,所以,能夠直接通過組成成分進行相似度計算,不同于網絡文檔一樣需要對文檔進行分詞處理。

在中醫證型模型內基于LDA的大致方法流程如下所示:

步驟1:把數據放置在LDA主題模型內進行處理,處理流程如下:

1)憑借先驗幾率P(di)挑選一種中藥方劑di。

2)憑借方劑證型的Dirichlet先驗分布?內取樣產生中醫學方劑di的證型分布θi,就是,證型分布θi,是通過超參數為?的Dirichlet分布產生的。

3)從證型的多項式分布θi內采集樣本產生中醫學方劑di的第j種組成成分證型Tij。

4)憑借證型、組成成分Dirichlet先驗分布b內采集樣本產生證型Tij相應的組成成分分布φi,即組成成分分布φi是通過,超參數為b的Dirichlet分布產生的。

5)從組成成分的多項式分布φi內采集樣本[12]的最后生成成分Cij。

步驟2:去除1)內2)方劑相應的證型分布θi,所有方劑通過相應的證型分布描述,對證型分布數據進行兩兩KL距離DKL(p,q)計算,計算出的值就是兩種方劑的相似度。

3 仿真證明

仿真環境為Intel Celeron Tulatin1GHz CPU和384MB S是D內存的硬件環境和MATLAB6.1的軟件環境。

為了證明本文方法的實用性,擬定了兩組實驗:

1)樣本為五種已知相似度重復類型與相似度重復程度的中醫方劑,使用本方法進行相似度計算,通過比較已知數據來確定本文方法的計算方式是否可行。實驗結果如表1所示。

表1 本文算法的相似度計算結果

通過表1能夠看出,通過本文方法計算出的相似度結果,與實際的相似度計算結果相差不大,并且這些誤差較小,可忽略不計,不會對實際方劑造成影響。

在此基礎上,對相似度計算時間進行記錄,并與運算目標時間進行了對比,記錄結果如圖2所示。

圖2 本文方法相似度計算時間記錄結果

如圖2所示,五種方劑相似度計算時間與運算目標時間吻合度較高,具有較高的實際應用性。

2)為了定量評測相似重復記錄檢測效果對各種方劑相似度計算的干擾,建造實驗數據生成器,通過1)內的五種方劑,使用本文方法進行相似重復記錄檢測,憑借查準率與查全率兩種閾值對檢測結果進行評定。查準率與查全率分別通過式(11)與(12)進行計算。

(11)

(12)

式中:Z為檢測出的相似重復記錄總量;Q為相似重復記錄的總量;Y為系統中的相關信息的總量。

結果如圖3所示。

圖3 本文算法得到的檢測結果

通過圖3能夠看出,在查全率上,本文方法的指標都能夠穩定在0.700~1.000之間,這是因為本文方法通過構建信任模型來計算方劑之間的信任值,通過信任值確定方劑指標間存在的誤差。而在查準率指標上,能夠看出,查準率一直維持在1.000~0.900之間,因為方劑數量的增加,查準率會出現輕微的浮動,但幅度基本都維持在90%以上不會對方劑造成嚴重的影響,證明本文方法能夠對中醫方劑進行較為精確的搜索,不會出現遺漏和誤差較大的問題,并且不會因為重復記錄檢測的效果干擾到方劑之間的相似度計算結果。

4 結束語

為了剔除中醫學方劑內存在的冗余信息,本文提出了一種基于信任模型的中醫藥方劑相似度的計算方法,通過構建信任模型計算方劑之間存在的關聯,進行相似度計算。但信任模型需要進行多次迭代才能夠達到期望閾值,一旦計算量過大就會導致模型構建時間增加,降低計算效率,因此下一步的研究即:優化信任模型,使模型在構造階段就能夠保持平穩狀態,減少計算量。

猜你喜歡
方劑證型信任度
中藥方劑,新冠肺炎患者的福音
何謂中醫“七方”
中醫有“七方”
全球民調:中國民眾對政府信任度最高
探討疣體注射法聯合中藥馬齒莧方劑治療跖疣
嶺南地區冠心病中醫證型及證素分布的地域性特征研究
膝骨性關節炎的證候分析及辨證用藥研究進展
不同證型慢性支氣管炎穴位貼敷的療效比較
178例新診斷2型糖尿病中醫證型及流行病學調查
2014,如何獲得信任
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合