?

機器學習方法鑒別中藥材種類和產地的比較研究*

2024-03-14 08:48湯玉榮
甘肅科技 2024年1期
關鍵詞:產地種類中藥材

湯玉榮

(蘭州現代職業學院衛生健康分院,甘肅 蘭州 730300)

中藥材在預防和治療感染、寄生蟲病、腫瘤,以及緩解身體疼痛等方面效果顯著。此外,中藥材還可以縮短退熱時間、治愈時間,提高中性粒細胞和淋巴細胞計數等。中藥材種類和道地性是療效的重要保障。不同種中藥材的成分相差很大,很多長相相似,肉眼無法準確識別。不同產地的同種中藥材成分也存在一定差異,有些還會受到地質和環境污染的影響。從統計學的角度分析,中醫的平均療效較好,但缺乏可重復性,故相同方子產生的療效方差較大(參差不齊)[1]。因此,為了確保中藥材療效的可靠性,準確鑒別中藥材的種類和產地對于中醫藥的發展具有重要意義。

中藥材種類和產地的鑒別方法有很多[2-7],如氣相色譜法、薄層色譜法、紅外光譜法等。紅外光譜法通過紅外光譜儀采集中藥材的光譜數據,分析藥材種類和產地的主要特征,具有高效、快速、精準、低廉等特點,但是識別的準確率還需要進一步提高。

近年來,基于藥材的近紅外光譜數據,使用機器學習方法對未知種類和產地的藥材進行識別受到了越來越多的關注。機器學習[8]是一門涉及了數學、計算機、物理等多學科的交叉算法,成功運用到了語音和手寫識別、自然語言處理、圖像識別、生物特征識別、醫學診斷等領域。隨著機器學習的迅猛發展,決策樹、支持向量機、最近鄰算法、集成學習等各種機器學習算法被提出。這些算法均可用于中藥材種類和產地識別。

1 數據分析

為了分析多種機器學習方法識別中藥材種類和產地的效果,研究選用中藥材的近紅外光譜數據集[9]中的數據。該數據集大部分藥材種類和產地都已知,但也有部分種類或產地未知,主要包括A、B、C 3種藥材,16個產地。從圖1可以看出3種藥材表現的光譜特征相對差異較大。

圖1 三種藥材的波數與吸光度曲線

圖2 為A 種藥材在1、2、3、4、5 號產地的光譜數據圖,可以看出數據差異較小。B 種和C 種藥材的光譜數據類似A 種。因此,藥材種類的鑒定難度較小,但是藥材產地的鑒定難度較大。

圖2 A 種藥材在不同產地的波數與吸光度曲線

2 鑒別方法

采用決策樹、支持向量機、最近鄰算法、集成學習四種經典的機器學習方法,識別中藥材的種類和產地,具體如下。

2.1 決策樹

決策樹是一種將已知數據樣本作為基礎進行歸納學習的方法。利用已知中藥材種類或產地的數據特性進行總結分類,為各特性找到一種確切的刻畫與分類,然后對未知種類或產地的數據進行分類。該算法的基本思想是把最高信息增益的描述特性作為近紅外光譜數據集的分支特性,創建決策樹中的一個節點,再利用描述特性的不同取值創建新的分支,最后對新分支中樣本子集重復調用構建該節點的子節點。

2.2 支持向量機

支持向量機是基于監督學習方式對近紅外光譜數據樣本進行二元分類的一種廣義線性分類器,其決策邊界是對學習樣本求解最大邊距超平面,將分類問題化為一個求解凸二次規劃的問題。在原空間線性可分時,尋找兩類樣本的最優分類超平面。在線性不可分時,加入松弛變量,利用非線性映射將低維度輸入空間的樣本映射到高維度空間,使其變得線性可分,然后在該特征空間尋找實現最優分類的超平面。

2.3 最近鄰算法

最近鄰算法(KNN)的想法來源于“近朱者赤,近墨者黑”,該方法是最簡單的機器學習算法之一,也是最基本、最好用的分類算法之一,其基本思想是將距離近的數據點劃為同一類。利用已知種類或產地的數據集,對新輸入未知種類或產地的數據點計算到已知各數據點的距離,在已知數據集中找到與該數據點最鄰近的K 個數據,這K 個實例的多數屬于那個類,就把該輸入數據點分到這個類。

2.4 集成學習

集成學習的想法源自“三個臭皮匠頂一個諸葛亮”。單個機器學習算法所能解決的問題很有限,推廣應用能力也較差,但組合多個機器學習算法完成某個學習任務往往會產生更好的效果。每個學習器可以看成是一個基本的學習單元,通過他們組合最終集成一個強大的整體,該整體可用于解決更復雜的問題。集成學習具有增加模型的性能、減少過擬合、降低方差、提供更高的預測精度、處理線性和非線性數據等優點。

3 問題求解

為了比較機器學習算法在中藥材種類或產地識別的效果,同時避免復雜的編程,使用MATLAB R2016a 自帶的機器學習工具箱APP—分類學習器(Classification Learner)。這個工具箱里面集成了一些經典的機器學習算法,具有簡單、實用等優點,對于處理數據量不大的分類問題非常高效。主要分為以下幾個步驟:

(1)將已知種類或產地的中藥材數據讀入MATLAB空間,類型為數值矩陣,命名為data。

(2)打開程序選項中的Classification Learner,然后選擇新任務(New Session)選項。

(3)從選擇列表或矩陣(Select table or matrix)中選取data變量。由于一組數據其變量需要包括每一列數據,之后使用列作為變量(Use columns as variables),接著選擇第一列為響應值(Response)代表輸出的目標,其余列為預測因子(Predictors),即訓練的輸入中藥材數據。驗證一般選擇交叉驗證(Cross-Validation)選項,然后點擊開始任務(Start Session)。

(4)接著選擇不同的算法進行訓練,使用All 把所有算法訓練一遍,點擊Train開始訓練。

(5)訓練結束后,可以看到每一種算法的識別準確率。識別率越高,說明算法相對越好。然后在工具箱中點擊輸出模型(Export model),就可以將訓練好的模型導出到MATLAB主界面。

(6)導入未知產地和種類的數組X,依照命令行中的提示,在命令行窗口輸入命令trainedModel.predictFcn(X)語句,實現產地和種類的預測。

4 結果分析

4.1 中藥材的種類鑒別

利用已知藥材種類的近紅外光譜數據鑒定未知種類,首先分析已知種類藥材的相關數據信息和特征,然后使用分類學習器得到決策樹、支持向量機、最近鄰算法、集成學習4種機器學習方法的學習模型,再對未知種類的藥材進行識別,比較4種方法的識別效果。

為防止出現過擬合現象,分析中藥材樣本數據種類的均衡性。近紅外光譜數據集中256個已知種類的藥材分布情況統計見表1,可以看出各種類的樣本數都相對較多,則不調整樣本數。

表1 各種類的藥材數量

以種類已知的藥材樣本數據為標簽,將原始數據按照75∶25 的比例分成2組,一組作為訓練集,一組作為驗證集。利用訓練集數據訓練分類器,驗證集驗證分類器的效果,并將最后的準確率作為分類器的性能指標。利用窮舉法找出常見機器學習方法模型中的最優參數。最后,對訓練集進行線性擬合得到訓練好的線性分類模型,利用模型識別種類未知的藥材種類。

表2 為4 種常見機器學習方法的識別精度,可以看出除了決策樹方法以外,其余3 種方法的識別精度都達到了100.0%。

表2 常見機器學習方法識別中藥材種類的精度(%)

表3為部分藥材使用這些機器學習方法識別種類的結果,可以看出這些方法識別結果基本一致,可以確定編號94、109、140 的藥材屬于A 類,編號278、308、330的藥材屬于C類,編號347的藥材屬于B類。

表3 部分中藥材種類鑒定結果

4.2 中藥材產地鑒別

用機器學習算法解決藥材產地鑒別問題時,首先將已知產地和未知產地的光譜數據分別保存。其次,以已知產地的藥材數據為基礎,利用決策樹、支持向量機、最近鄰算法、集成學習等4種方法分別得到學習模型,然后導出得到的學習模型。最后,針對未知產地的藥材,利用光譜數據信息和學習模型對藥材種類進行鑒定。

假設未知產地的藥材只在該藥材已出現的產地上種植。利用4.1 節中的方法,確定所有中藥材的種類。為防止出現過擬合現象,對中藥材樣本數據產地的均衡性進行分析。表4可以看出A類藥材共108個樣本,但是分布不均衡,尤其是2號產地明顯偏少。

表4 各產地A 類藥材的數量

表5可以看出B類藥材共150個樣本,分布比較均衡。

表5 各產地B 類藥材的數量

表6 可以看出C 類藥材共69 個樣本,但是產地1 的樣本數量較少。因此,對樣本數量進行數據合成,通過已有真實數據集的處理和組合,生成新的數據集?;贛ATLAB 中的數據擴展算法添加較小的高斯噪聲,擴大現有數據集中A類2號產地和C類1號產地的數據規模分別到13和18,使得模型的訓練結果更加準確和可靠。

表6 各產地C 類藥材的數量

依次將A、B、C藥材的光譜數據挑選出來,以已知產地的數據為基礎,把光譜數據按照75∶25 的比例分為訓練集與測試集,利用窮舉法找出模型最優參數,最后將訓練集進行線性擬合分別得到訓練好的分類模型。針對未知產地的藥材,利用得到的模型對藥材產地進行鑒定。

表7 為常見機器學習方法識別產地的精度,對A類和B類藥材的產地識別只有集成學習中的子空間判別法有效,其余方法都識別精度不高。C 類藥材的產地識別中,集成學習和支持向量機2 種方法有效。綜合分析,集成學習中的子空間判別法對于中藥材A類、B類、C類的產地識別都非常有效,可以用于中藥材的產地識別。

表7 常見機器學習方法識別中藥材產地的精度(%)

表8為集成學習中的子空間判別法對部分未知產地藥材的識別結果。

表8 部分中藥材的產地識別結果

5 結論

中藥材的種類和道地性對中藥材的療效有直接影響?;诮t外光譜數據分析發現,中藥材的種類識別比較容易,產地鑒別相對困難。機器學習方法是鑒定中藥材種類和產地的有效方法之一,利用近紅外光譜數據,通過系統比較常用的機器學習方法對中藥材產地和種類鑒別的準確率,結果表明常用的機器學習方法包括決策樹、支持向量機、最近鄰算法、集成學習等都可以成功識別種類,但是只有集成學習中的子空間判別法對產地識別有效。

猜你喜歡
產地種類中藥材
夏季中藥材田間管理做好這五點
中藥材促農增收
宋四清:種植中藥材 托起致富夢
警惕“洗產地”暗礁
食物離產地越遠越好
種類豐富的酒具
測定不同產地寬筋藤中5種重金屬
消防車種類知多少
鏡頭像差的種類
DNA提取4種中藥材方法的篩選
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合