?

中醫古籍文獻研究方法述要

2024-01-10 06:55趙輝張華敏張磊劉思鴻佟琳
中國中醫藥圖書情報雜志 2024年1期
關鍵詞:古籍數據挖掘中醫藥

趙輝 ,張華敏 ,張磊 ,劉思鴻 ,佟琳

1.中國中醫科學院中醫基礎理論研究所,北京 100700;2.中國中醫科學院中藥研究所,北京 100700;3.中國中醫科學院中醫藥信息研究所,北京 100700

中醫古籍是指1911年以前(含1911年)書寫或刻印于紙質載體上的中醫學書籍[1]。它蘊藏著寶貴的中醫理論知識和豐富的實踐經驗,是中醫藥知識寶庫。對中醫古籍文獻的系統整理,有利于充分挖掘古籍中蘊含的中醫藥知識,促進中醫藥傳承并加強文化遺產保護。而中醫古籍版本眾多,語義深奧,這給中醫古籍文獻的深入研究帶來了困難,尋找恰當有效的中醫古籍文獻研究方法十分必要。本文對目前中醫古籍文獻研究方法進行簡要梳理,以期為充分挖掘中醫古籍價值提供參考。

1 中醫古籍文獻學研究方法

中醫古籍成書久遠,在傳抄過程中,篡改脫衍,以訛傳訛,加之文辭高古淵微,難以被閱讀和挖掘利用。通過中醫文獻學的方法對古籍進行系統整理,去偽存真,讓古籍資料更加清晰明了,盡可能地還原或接近古籍原貌。傳統的中醫文獻學方法包括訓詁、???、目錄學、辨偽、輯佚等。

1.1 訓詁

中醫訓詁學是利用形訓、聲訓、義訓對中醫古籍內容進行訓釋,以解釋深奧醫理,所以中醫訓詁學是中醫學與傳統訓詁學的結合,訓詁體制和形式以正文訓詁、隨文釋義、通釋義詞為主[2]。運用中醫訓詁學可對醫籍詞義、本草名物及腧穴名稱進行釋義。醫籍詞義訓詁多引用《爾雅》《說文解字》等著作進行訓釋和通假字辨析,引用過程中運用“詞義互釋”法和“義界釋詞”法對文詞進行同義詞互訓和字義、詞義的界限[3-4]。本草名物詞訓詁主要是考證藥物名稱與具體藥物之間的名實相符情況,并能研究藥物命名的理據[5]。對腧穴名稱訓詁可幫助明確腧穴定位,揭示腧穴命名的內涵,從而更好地理解腧穴的臨床作用原理,并能糾正錯誤命名[6]。

1.2 ???/h3>

運用??睂W方法,發現并糾正流傳中字、詞、句、篇、章錯誤,使中醫古籍盡可能地恢復原貌[7]。??钡氖滓ぷ魇谴_定??痹摃罁牡妆?,底本的選擇一般以初刻、精刻、早期刻本或有一定影響力的刻本,??睍r綜合運用對校、本校、他校、理校對底本中出現的脫文、衍文、顛倒、疑似、異文、混亂作出校注[8]。使用他校時要確認引文出處,并需考察他校書的引文方式、引文采用的版本、引文的基本結構[9]。隨著古籍數字化的發展,應用現代信息技術對古籍進行點校,節省點校的時間、資源,提高點校效率和質量,計算機可對一個或多個校本進行自動???,發現和標記不同版本間文字的差異,并顯示需要??钡男畔10]。

1.3 目錄學

自西漢《別錄》和《七略》起,中醫古籍目錄逐漸增多[11],借助目錄可以從浩如煙海的中醫古籍中順利找到所需資料,系統了解所需文獻。在古籍??惫ぷ髦?,可借助《中國中醫古籍總目》獲取圖書信息和藏書地點,然后使用具有提要、評價的工具書,如《中國醫籍提要》[12]。運用目錄學方法研究中醫文獻有梳理稽考存佚、甄別偽贗、析別版本、部次類屬、厘訂卷次、辨章學術、考鏡源流、補述史例、評騭得失9種方法[13]。而今借助網絡信息,建立中醫藥信息資源目錄學,將中醫藥文獻資源目錄數字化,并將數字目錄應用到中醫藥資源管理系統,充分發揮目錄學功用,促進中醫藥數字目錄學發展[14]。

1.4 辨偽

偽書即古籍作者、內容、年代不真實,辨別偽書是古籍文獻的研究基礎,根據前人經驗,辨別偽書主要可將查考歷代書目、分析醫書內容、研究語言特點、考辨應用文獻及考訂作者生平等方面綜合應用[15]。該方法可以幫助找到書中的“偽跡”,有學者認為,辨偽工作不僅要找到“偽跡”,還要解釋造成“偽跡”的原因,將古籍辨偽工作從傳統考證作者、內容和年代真實性,擴大到古籍體裁、編撰方式及流傳過程的考證[16]。中醫古籍偽書存在一些共同特點,書托鬼神、古圣先賢、名家而成,或在???、編撰、傳抄過程中在真書中摻雜偽文[17]。古籍辨偽是為恢復其本來的歷史面貌,客觀、真實地對偽書作出評價,以利于正確運用文獻資料,而對于偽書的學術價值,可根據其內容作具體分析。

1.5 輯佚

一些重要的中醫文獻資料在流傳過程中由于自然與人為的原因亡佚,在現存古籍文獻中,搜集、考證、整理佚文,使佚書得以恢復或部分恢復原貌[18]。首先選擇輯佚文最多、版本最好、編排合理的輯本作為主據本,其他輯本作為參考本;對主據本和參考本的佚文進行綴合與剔重,根據佚書篇名推測編排順序;將剔重后的佚文與原始出處進行校對,補充佚文;最后將輯錄完成的佚文進行標點和提供校語[19]?,F代輯佚工作可借助網絡資源,提高工作效率,在古籍數據庫中嵌入模糊檢索模塊,將字段和句段的編輯實現智能化[20]。部分中醫古籍文獻學研究方法見表1。

表1 中醫古籍文獻學研究方法舉例

2 現代信息技術研究方法

隨著科學技術的發展,運用現代技術對中醫古籍進行數字化和網絡化整理是中醫藥現代發展的趨勢,同時也是中醫古籍保護和利用的新手段,能更好地保護、利用和挖掘古籍知識?,F代信息技術使傳統古籍煥發新活力,推進中醫藥傳承創新和中醫藥走向世界。

2.1 建立中醫古籍數據庫

目前,中醫藥大學基本都建立了古籍數據庫,資源元數據來源于自身館藏[27],數據庫的建立使中醫古籍實現了電子閱覽,為其深入挖掘帶來便利。關于數據庫的建立方法,楊其霖等[28]認為,首先對元數據進行加工,運用《中國中醫古籍總目錄》對古籍進行分類。對古籍進行拍照時要求原書完整清晰,并對照片執行嚴格的錄入規范。儲存古籍圖像時需與原書文本進行關聯,建立索引關系。并從圖像的名稱、分類、主題、圖中文字、釋圖文字等方面對圖像進行數字化處理。此外,可以對古籍的內容進行專題數據庫建立,如溫病古籍知識庫、中醫古籍養生知識庫等[29],這有利于建立更深層次的中醫古籍知識數據庫。目前已有學者提出基于本體、知識元、知識聚類和知識組織的中醫古籍知識庫建立方法[30-32]。

大數據、人工智能時代背景下,將積累的中醫古籍數字資源構建多場景應用的大型特色專題知識庫,輔助臨床決策、藥物研發與醫家經驗傳承,應用新技術和新理念建立中醫古籍知識庫,實現古籍原創知識的提煉、展示與活化利用,讓中醫古籍在“增進人民健康福祉”中發揮更大作用。

2.2 數據挖掘

數據挖掘是從已建立數據庫中提取、轉換、分析有價值的知識信息[33],其在中醫研究的應用包括證候研究、方劑配伍研究、古今醫案研究、用藥規律研究、針灸取穴規律研究、辨證規律分析等方面。

數據挖掘一般由5個步驟組成:數據集成、數據歸約、挖掘、評價和表示[34]。數據集成也是數據的準備,研究者根據研究主題從各類數據庫中提取統一的數據模型,建立一致的數據視圖,是形成數據挖掘的基礎?,F在多使用已有的中醫古籍電子檔或古籍數據庫摘錄內容,如《中華醫典》。數據集成后對數據做進一步加工,排除一些噪聲與冗余數據,對有效數據做適當調整。這2個步驟是為數據挖掘做數據準備,保證挖掘有效性。數據準備完成后可以選用相應的方法、算法與相應的挖掘參數進行數據挖掘。對挖掘后的結果作出標準評價,選取符合要求的作為結果。最后將數據挖掘的結果通過文字、圖片、表格等形式表示。由于中醫古籍的特殊性,目前常用的中醫古籍數據挖掘方法有頻數分析、關聯規則分析、聚類分析、因子分析、回歸分析、神經網絡、貝葉斯網絡、粗糙集[35]。

中醫古籍中知識通常為隱性知識,完成中醫知識的收集、抽取、融合,將其文本化、數據化、知識化,對海量數據進行潛在價值挖掘。中醫古籍數據挖掘常用方法見表2。

表2 中醫古籍數據挖掘常用方法

2.3 知識圖譜構建

知識圖譜是一種概念網絡,是具有屬性的實體通過關系連接而成的網狀知識庫,節點代表實體(或概念),實體間的語義關系則構成網絡中的邊,最終以圖形化的方式展示經過分類整理的結構化知識[55]。近年來以知識單元為前提,構建知識圖譜,可以快速繪制、挖掘和分析相關知識之間的關系,從而對海量知識進行有效管理[56]。構建中醫古籍知識圖譜可將古籍中的病、癥、治關系及醫家學術思想用直觀的形式進行表達,研究人員和臨床醫生可快速獲得知識推薦,從而促進中醫古籍的保護和利用。關于知識圖譜的構建方法,首先從原始數據出發,步驟包括信息抽取、知識融合、知識加工[57]。盧克治[58]通過人工方式對中醫古籍文獻進行數據處理和標注,形成標準語料庫,經過實體識別和實體關系抽取后,將抽取和標注數據進行醫學術語規范,并將同義詞不同表達的術語進行規范化表達,再將人工標注及智能抽取審核的關系數據存儲到知識圖譜平臺中,采用 Neo4j 圖形數據庫構建知識圖譜庫,在此基礎上對清肺排毒湯和宣肺敗毒方中的經方進行搜索查詢,得出經方對應的治法信息和藥物使用情況。葉斌等[59]在研究胸痹病機的知識圖譜時,先通過文獻檢索進行相關文獻提取,并將文本分解為最小知識單元,形成知識元文本;將知識元分類,根據知識元部件內容編寫DTD文檔;通過SAS9.4軟件進行編程,對部件文本進行語義提取和消除歧義;再對知識元文本進行頻數分析和語義關聯規則分析;最后通過SAS軟件編寫代碼,對語義關系和語義分類關系進行圖形化展示,形成胸痹辨證論治知識圖譜,從而直觀地理解胸痹證治的相關知識。

通過中醫知識表示、本體構建與知識管理,基于概念類型、語義關系等對知識進行關聯,可視化呈現“理、法、方、藥”知識內容關聯,提升中醫隱性知識的發現效率,深入挖掘中醫古籍的潛在價值。

2.4 人工智能

運用人工智能方法處理數字化的古籍,實現古籍的智能整理、挖掘,提高工作效率。運用該方法時,首先要解決的問題是機器對古籍文本的文字識別、自動斷句與詞法分析。由于古籍的排版不固定,不同作品字體存在差異,以及內容存在缺失等原因,傳統的光學字符識別技術不能完全滿足古籍文字識別,深度學習相對于傳統方法能夠更好地對古籍文字進行識別。構建對古籍字體數據進行特征學習的卷積神經網絡可分為3個步驟:①構建訓練集;②模型的構建與訓練;③識別和結果分析。其本質是以深度學習方法構建漢字圖片與字符的分類器,將概率最高的分類作為輸出結果[60]。運用深度學習方法可以進一步提高古籍斷句、標點、分詞、詞性標注和語義理解的效率[61]。程寧[62]通過構建Bert-BiLSTM-CRF模型,采用聯合學習方法實現了古籍斷句、分詞和詞性標注的一體化標注。洪濤等[63]用10億字古籍語料對Transformer模型進行自動標點、斷句訓練,通過19本未訓練語料的測試,發現該模型對古典文言文語料預測結果較好。同時利用機器學習,還可以對古籍進行深入挖掘。石清陽[64]以《傷寒論》作為訓練數據,將訓練好的RoBERTa-large模型對《傷寒論》中的經典條文進行證治規律分析,結果發現,該模型可以根據條文的不同含義進行分層分析,并展示條文主要癥狀的關聯、癥狀與病證之間的關聯等,從而對《傷寒論》進行深入剖析。

數據挖掘、人工智能等技術助推中醫古籍數字化的深度與廣度,既需要有高效管理大數據的能力,又需要有強大的知識推理能力,才能進一步提升中醫古籍創造性轉化利用的深度。

3 循證醫學方法

循證醫學強調在臨床實踐過程中,臨床決策必須建立在最佳臨床證據、臨床專業技能和經驗、患者價值觀及情形相結合的基礎上[65]。將循證醫學方法運用到中醫古籍研究中,具有一定優勢,中醫古籍中的有效處方,千百年來經過歷代醫家的反復臨床實踐驗證,其證據級別可能高于部分專家的評定。然而循證醫學方法在中醫古籍研究中的應用還處于探索階段,目前尚缺乏成熟、標準的研究方法。李煥芹等[66]認為,古籍循證選擇的數據庫應該是古籍數量充足和古籍版本是經權威認證的“善本”,以病證-證候類型檢索,對檢索結果進行去重、刪除不符內容等,得出該疾病的證型分類目錄,通過專家討論得出疾病的臨床常見代表證型,并對證型的方劑檢索,根據每首方劑條文及其本身分級,綜合得出每首方劑的證據評分。張磊等[67]認為,在制定中醫古籍證據評價分級量表時,可以從診斷和防治兩方面對證據進行區分,運用德爾菲法確定古籍證據評價條目,通過專家共識度對條目進行篩選并確定權重,對條目進行賦分,最后通過會議形成專家共識。劉邁蘭等[68]認為循證方法研究中醫古籍應服務于臨床,以臨床問題-治療方法為模式進行挖掘整理,將臨床疾病以病、證候、癥狀為綱目,建立具有中醫特色的數據庫,按照證據推薦級別排列治療方案,通過古籍實踐經驗的引用率或專家共識對實踐經驗進行證據分級,最后將一致認可的證據制定成疾病治療指南或編入教材。應用現代循證理念,注重中醫知識評價和更新反饋,形成面向臨床需求的中醫典籍臨床決策支持循證體系,提升中醫古籍知識利用與轉化效率,搭建中醫典籍知識與當代重大疾病相關聯的橋梁。

4 小結

中醫古籍承載著中醫藥千百年來的經驗總結,是中醫學理論與實踐的根源,也是中醫藥追求創新、啟發研究的靈魂所在。從“青蒿一握,以水二升漬,絞取汁,盡服之”(《肘后備急方》)到青蒿素的誕生,無不顯示著研究中醫古籍的重要性。在研究方法上可以遵循傳統的中醫文獻學研究方法,通過訓詁、???、類編等方式對古籍整理研究,也可以運用現代信息技術對中醫古籍進行深入挖掘;以及將中醫古籍作為中醫藥臨床指南制定的證據來源,建立適用于中醫古籍內容的證據評價標準。以上研究方法是從不同角度對中醫古籍內容進行研究,需要綜合運用。應注重不同研究方法之間的有機契合,從多維度對中醫古籍進行研究,從而不斷擴大中醫古籍的研究利用范圍。

猜你喜歡
古籍數據挖掘中醫藥
中醫古籍“疒”部俗字考辨舉隅
中醫藥在惡性腫瘤防治中的應用
中醫藥在治療惡性腫瘤骨轉移中的應用
探討人工智能與數據挖掘發展趨勢
關于版本學的問答——《古籍善本》修訂重版說明
關于古籍保護人才培養的若干思考
從《中醫藥法》看直銷
我是古籍修復師
基于并行計算的大數據挖掘在電網中的應用
中醫藥立法:不是“管”而是“促”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合