?

數字圖書館進程中的古籍數字化發展現狀研究*

2012-02-15 10:45
圖書情報研究 2012年3期
關鍵詞:古籍數據庫數字化

徐 變 云

(咸陽師范學院圖書館 咸陽 712000)

數字圖書館進程中的古籍數字化發展現狀研究*

徐 變 云

(咸陽師范學院圖書館 咸陽 712000)

結合數字圖書館的相關理論,總結古籍數字化的豐碩成果;指出古籍數字化存在的如資源重復建設、數字化格式繁多、數字產品價格昂貴等問題;探索我國古籍數字化的發展趨勢,即地域特色的古籍文獻與大部頭典籍是今后古籍數字化的主流;指出古籍數字化技術和相關政策法規將會更加完善。

數字圖書館 古籍數字化 趨勢

計算機技術在圖書館信息系統中的廣泛應用,使傳統圖書館向新型圖書館轉型,圖書情報現代化進入了一個新的發展時期,數字圖書館應運而生。數字圖書館,即將圖書館文獻信息以數字化的形式表現和獲得[1]。數字圖書館是圖書館現代信息技術發展的高級階段,代表著未來圖書館的發展方向。數字圖書館的功能之一即各種文獻內容的數字化。古籍數字化就是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,制作成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資源的一項系統工作[2]。古籍作為圖書館的特藏文獻和中華文明的瑰寶,其數字化是數字圖書館的重要組成部分,頗受人們關注。

1 古籍數字化取得豐碩成果

1978年美國人P·J·Ivanhoe運用計算機編制了《朱熹大學章句索引》、《朱熹中庸章句索引》、《王陽明傳習錄索引》等,開始了古籍索引編制的計算機實踐。臺灣從20世紀80年代開始研發包括《二十五史(全文資料庫)》、《阮刻十三經注疏》在內的大型古籍資源庫“翰典全文檢索系統”;1989年提出“數字典藏計劃”,其數字化包括善本古籍、金石拓片、古籍附圖、臺灣地方文獻及期刊報紙等。從1989年開始,香港中文大學中國文化研究所開展有關中國傳世典籍數據庫的研究工作,正式成立了“古文獻數據庫中心”(CHANTCenter),并先后推出《先秦兩漢古籍逐字索引叢刊》及《漢達古籍數據庫檢索系統》。自1999年起,香港中文大學再獲香港政府研究資助局撥款資助,開始著手金文全文電腦化資料庫計劃,其主要資料來源于中國社會科學院考古所編著的《殷周金文集成》,總計收錄12 021件銅器上的銘文,14萬字隸定釋文和另約100萬字器物資料說明[3]。大陸古籍數字化初期發展緩慢,成果甚少。上世紀90年代后,北京超星公司主持的“超星圖書館”,錄入了包括《古今圖書集成》、《二十五史》、《資治通鑒》、《清實錄》、《中國古典名著大系》等大量數字化全文。1999年底由上海世紀出版集團上海人民出版社、香港迪志文化出版有限公司推出的《文淵閣四庫全書》電子版及之后推出的《四部叢刊》電子版,無論從規模還是技術上來說,都是史無前例的。另外北京大學《中國基本古籍光盤庫》,計劃收錄古籍1萬種;國學公司推出了《國學寶典》等系列產品。截止2011年,網上可見的中文古籍數據庫約70多個。繼《四庫全書》與《古今圖書集成》全文數字化、甲骨文和金文全文資料庫之后,我國古籍數字化整理邁上了新臺階,以國家圖書館為首的各收藏單位也已開始啟動更大規模的古籍數字化工作。我國古籍數字化的代表性成果詳見《中文古籍數字化的進展與主要成果述評》[4]一文。

從當前古籍數字化的研究論文數量和發表時間來看,古籍數字化理論研究稍晚于古籍數字化實踐。20世紀90年代開始,古籍數字化理論出現;進入21世紀,古籍數字化研究成為熱點,理論研究日趨成熟。這些論文主要包括古籍數字化發展概況、存在問題、發展趨勢;古籍數字化資源的開發、共享和利用;古籍數字化技術研究,比較集中在古籍數字化的檢索系統、書目數據庫、全文數據庫;古籍數字化在中文、歷史學科中的重要作用;少數民族古籍數字化研究;古籍數字化的版權歸屬等方面。

2 古籍數字化存在的問題

目前,國內古籍數字化碩果累累,理論研究方興未艾。古籍數字化是由多個學科互相結合、多方共同支持協調實現的,然而在其發展過程中仍存在諸多問題。

2.1 資源重復建設

由于古籍數字化缺乏統一的規劃,無論是科研機構還是商業公司,重復開發古籍資源會造成不必要的人力、物力、財力資源浪費,如《四庫全書》和《二十五史》最少有4種以上電子版本[5]?!端膸烊珪肪陀泻想娮右粝癯霭嫔?、岳麓書社與湖南華天集團合作出版的全文檢索電子光盤版,武漢大學出版社出版的電子版,上海人民出版社與香港迪志文化發展公司聯合開發的光盤版,臺灣“中央研究院”的電子版等。重復開發古籍帶來的市場無序化問題也逐漸顯現。

古籍資源的重復開發,所依據的古籍版本不盡相同,古籍數字化版本的選擇關乎古籍數字化的質量。經過長時間的保存和流傳,古籍形成了不同的版本,如《草堂詩余》僅存世本就有35種之多[6]。古籍整理者必須掌握每本書的目錄版本,了解各種版本的優缺點,依據較好的版本作為??钡妆具M行古籍整理。古籍數字化結束了把古籍“束之高閣”的命運,采用網絡、光盤、數據庫等形式將古籍內容展現在讀者面前,擴大了古籍的傳播面,其數字化產品更應該精致準確,盡可能減少訛誤,以免給讀者傳播錯誤的信息,造成負面影響?;诖?,古籍的數字化整理,應對古籍的版本做出嚴格篩選,數字化處理技術也要更加完備,以確保古籍數字化產品的質量。一般來講,科研機構、圖書館出于學術研究的需要,根據自身的知識涵養、職業經驗,對古籍版本比較重視,開發了學術性較強的數據庫或是有特色的館藏古籍數據庫,如中國社科院文學研究所的《元代文獻數據庫》、《<紅樓夢>研究資料數據庫》,國家圖書館的《國圖善本古籍書目數據庫》、《國圖普通古籍書目數據庫》、上海圖書館的《上圖藏宋元善本全文資源庫》、西安交通大學的《西安交通大學古籍特藏》、廣西壯族自治區圖書館的《太平天國史料庫》等。而商業性的數字出版公司,為了迎合市場的需求,多選擇讀者普遍喜歡的大型叢書或已經整理好的經典文獻,如北京書同文數字化技術有限公司開發的“文淵閣《四庫全書》”全文檢索電子版光盤、《四部叢刊》、《康熙字典》,加利華公司制作的《唐詩三百首》光盤、《宋詞三百首》光盤。這些古籍是已經整理過的文獻,其所采用的版本已經很難查詢,讀者在閱讀時要仔細甄別,慎重引用。

2.2 缺乏統一的標準和規范,數字化格式五花八門

我國地域廣博,古籍數量眾多,古籍數字化任重道遠。古籍數字化還未達成共識,開發單位眾多,各自為政,造成數字化格式五花八門,且互不兼容。撇開數字化產品的存儲格式和系統標準不說,僅閱讀器一項,目前常見的有txt、doc、html、exe、pdf、wdl、pdg、ceb、ebk、edb、nlc、chm、xml等格式。讀者在閱讀不同開發者的古籍電子版時需要下載不同的閱讀器,給學習、科研造成諸多不便;對于數據共享也是一大障礙,直接影響了古籍數字化產品的使用性能。

2.3 價格昂貴,制約了消費市場

盡管古籍數字化蓬勃發展,前景可觀,但其所耗費的人力、古籍資源、技術成本高,造成數字化產品費用昂貴。如中國知網的《國學寶典數據庫》是一套中華古籍全文資料檢索系統,收錄了上起先秦、下至清末兩千多年的所有用漢字作為載體的歷代典籍?!秶鴮W寶典》每年的包庫費昂貴,只有高校圖書館和科研單位有能力購買;對于個人用戶而言,尤其是從事文史方面的研究人員來講只能望洋興嘆。因此,古籍數字化產品只能局限在一定的區域范圍內,很難實現其大眾性、通用性功能,難以滿足個人用戶的需求,制約了古籍數字化產品市場的擴大。

古籍數字化過程中,還存在諸多問題,如怎樣實現古籍電子版的版本保存、怎樣解決字形混亂的現象,從技術上維持古籍原貌;古籍電子版的共享與利用;電子版古籍的法人歸屬;古籍數字化技術人員缺失,急需既懂古籍知識又精通計算機技術的復合型人才;古籍分類法如何統一等。

3 古籍數字化的發展趨勢

從當前古籍數字化成果看,大部頭典籍倍受青睞,如《四部叢刊》、《四庫全書》、《永樂大典》、《古籍圖書集成》、《全唐詩》等;今后,它們依舊是古籍數字化的主流,而且會更加專業化、系列化,數據庫質量更加精良,檢索系統更便捷,使用更放心。

總結古籍數字化的經驗教訓,古籍數字化的選題至關重要,特色古籍數據庫成為新的熱點。一些有地方特色的古籍近年來也被納入數字化的視線。地方圖書館或古籍開發者應著眼于本地區的歷史、地域特色,選題堅持“人無我有”、“人有我?!钡脑瓌t。如中國農業大學的《農書古籍圖片數據庫》;北京中醫藥大學的《館藏中醫古籍數據庫》;陜西師范大學的《西北地方志數據庫》、《歷史地理學科文獻數據庫》;西北大學的《館藏古籍書目數據庫》;西安交通大學的《古籍特藏數據庫》;江蘇古籍出版社的《江蘇地方文獻叢書》;蘇州圖書館《地方文獻數據庫》包括蘇州名人、老照片、古籍閱覽以及民間文藝等內容;浙江古籍出版社的《兩浙文獻叢編》、《浙藏稿本叢刊》;紹興圖書館開發的《紹興方志數據庫》收錄了中國方志史上的重要作品如《(嘉泰)會稽志》、《(寶慶)續會稽志》、《(萬歷)紹興府志》、《(乾隆)紹興府志》等,并與紹興其他歷代方志一起構建了獨具特色的古籍數據庫;中山圖書館的《廣東地方志》包括族譜等。高校圖書館應發揮自身的人才、資源、技術優勢,結合本館的特藏文獻,本地的歷史文化與風土人情,開發特色古籍數據庫。筆者認為,未來古籍數字化發展趨勢是地域特色的古籍文獻與大部頭典籍并駕齊驅。從學科建設來看,古籍數字化產品主要集中在文、史、哲方面,自然科學類的古籍資源本身就少,且散見于其他史料中,整理起來難度大,但其實用價值高,如古代天文、歷法、算術等,應逐步整理開發。

同時,古籍數字化技術也在不斷完善。目前,國內缺少一個統一的古籍數據庫平臺,導致古籍重復開發,電子版本多,多種數字化格式并存,制約了古籍數字化向科學有序的方向發展。因此,打造一個統一的數據庫共享平臺,將是古籍數字化發展的最終目標。漢字字庫也在不斷完善中。由于古籍最關鍵的技術是繁體字如何展現、貯存,繁簡字的轉化和使用等問題,GB2312-80和GBK標準難以達到古籍字庫的用字量需求,而Unicode字符集含字廣泛,基本解決了古籍的用字量問題。將古籍用掃描的方法錄入電腦,是古籍數字化的最佳途徑。OCR自動識別技術能夠成功地將文字的手工錄入轉變為自動錄入,但由于古籍文獻字體本身的復雜性,OCR的識別率低,技術有待于提高。隨著古籍數字化的發展和古籍書目數據庫的建立,古籍數字化的檢索系統、分類標準也在不斷完善中。

4 結語

古籍數字化不僅需要科研機構、高校圖書館、數字出版公司的參與,它還涉及到社會的方方面面,需要大家共同關注。國家要對古籍數字化進行統一規劃,建立古籍數字化共享平臺和古籍聯合書目數據庫,實現古籍檢索網絡化;在技術上要建立古籍數字化整理的標準和規范,如古籍數字化后應能保持字體原貌;培養新型古籍整理人才,使古籍整理從理論到實踐、從人才到技術,都朝著科學有序的方向發展。

[1] 王大可. 數字圖書館[M]. 深圳:海天出版社,2002:15.

[2] 毛建軍. 古籍數字化的概念與內涵[J]. 圖書館理論與實踐,2007(4):82-84.

[3] 郝淑東,張 亮,馮 睿.古籍數字化的發展概述[J].情報探索,2007(7):114-116.

[4] 吳家駒. 中文古籍數字化的進展與主要成果述評[J]. 南京師范大學文學院學報,2004(3):178-183.

[5] 王立清. 略論我國古籍數字化的選題[J]. 圖書情報工作,2005(3):62-64.

[6] 劉軍政. 明代《草堂詩余》版本述略[J]. 南京師范學院學報,2004(2):49-54.

ResearchontheDigitizationofAncientBooksintheDevelopmentofDigitalLibraries

Xu Bianyun

Xianyang Normal University Library,Xianyang 712000, China

The present article summarizes the great achievements in digitization of ancient books by using the related theory of digital libraries and meanwhile reveals some problems such as duplicated construction of resources,too many formats of digitization and high price of the digital products. It also studies the developmental trend of the digitization of Chinese ancient books and points out that digitization of the ancient literature with local features and voluminous books will become the mainstream and that digital technology and the related policies and regulations will be further improved.

digital library; digitization of ancient books; trend

G255.1

徐變云,女,1981年生,研究生,助理館員,研究方向為地方古籍整理,發表論文4篇。

*本文系咸陽師范學院專項科研計劃項目“數字圖書館進程中的圖書館古籍數字化發展研究”(項目編號:11XSYK343)研究成果之一

猜你喜歡
古籍數據庫數字化
中醫古籍“疒”部俗字考辨舉隅
家紡業亟待數字化賦能
關于版本學的問答——《古籍善本》修訂重版說明
高中數學“一對一”數字化學習實踐探索
高中數學“一對一”數字化學習實踐探索
關于古籍保護人才培養的若干思考
我是古籍修復師
數據庫
數字化制勝
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合