?

古籍善本數字化處理與數據庫構建技術初探

2018-12-24 03:26肖志芳通訊作者
信息記錄材料 2018年12期
關鍵詞:存儲系統古籍光學

郭 晨,肖志芳(通訊作者)

(井岡山大學電子與信息工程學院 江西 吉安 343009)

1 引言

古籍善本是古代文明的載體,是人類進步的歷史記錄,也是世界文明的珍貴遺產,這些遺產至今仍然發出璀璨的光芒[1]。其中引人矚目的一個實例就是諾貝爾獎獲得者屠呦呦在她的獲獎感言中講到“當年,每每遇到研究困境時,我就一遍又一遍溫習中醫古籍,正是葛洪《肘后備急方》有關‘青蒿一握,以水二升漬,絞取汁,盡服之’的記載,給了我靈感和啟發,并最終突破了科研瓶頸”。而當下,這些珍貴的古籍善本正遭受著失去一本將可能永不復見的極大危險。類似的悲劇已發生過多次,如:我國最早的科學巨著《墨子》、兵書始祖《陰符》、醫學巨著《黃帝外經》以及《連山》、《歸藏》等。而當前存世的古籍善本隨著歲月的流逝也存在著巨大的保存挑戰。如何才能妥善的保存好這些歷史文明的無上瑰寶,并且讓它在新世紀里仍然能發揮出卓越的光芒,這是當下的重要研究課題,也是人類迫切需要解決的重要問題。

2 古籍善本的現狀

根據國家圖書館的有關統計,目前全國各地的國有館藏單位擁有的古籍善本總數超過五千萬冊。但是保存狀態參差不齊,相當一部分狀態堪憂。古籍善本從材質上分為寫本、刻本、稿本、抄本和石印本,按照裝訂又有線裝、卷軸裝、經折裝、包背裝之分[2]。當前,古籍善本保存的主要問題還在保管設備上,許多單位的古籍善本和普通書籍共用書庫,并且書庫環境較差,保存設備老化落后,管理人員不專業,并且存在著非專業的修補,具體呈現出來的問題包括:蟲蛀、鼠嚙、水濕、霉爛、老化、絮化、粘連、酸化、脆化以及各種污染損害等[3],有些損毀嚴重的已無法進行正常的翻頁和移動。其中呈現出的具體問題都與紙質密切關聯,古籍善本由于材質成分使得紙質的穩定性存在著較大的風險,需要特別關注。

3 古籍善本數字化處理技術

古籍善本數字化處理就是借助現代信息技術對原書進行光學掃描,在此基礎上進一步進行數字化加工處理以形成基礎數據單元,形成數據庫。古籍善本的數字化技術主要包括古籍善本掃描技術、數字式照相技術和光學文字識別技術。

3.1 古籍善本掃描技術

圖形圖像是現代信息的主要信息形式,其具有的直觀性是其他信息形式無法比擬的,所以才有了“有圖有真相”的論點。事實上幾乎所有人都更容易接收來自于視角的感受,人們對于它的記憶更加深刻而持久。由于現代信息社會是一個數字的時代,所以各種圖像都需要進

行所謂的數字化處理。數字處理簡單來說就是把一副物理存在的圖像編輯成計算機可以打開和還原的圖像。通過掃描儀,以像素為最小單位記錄下圖像的每一個坐標位置、亮度以及相關顏色信息。具體流程是通過對物理圖像進行光學掃描得到光學圖像,然后利用光電轉換器把光學圖像轉換成模擬電信號,進而進行數/模轉換,把模擬電信號轉換成數字電信號,最后通過計算機接口把數字電信號轉變成數字圖像,如下圖1所示。

圖1 掃描流程圖

3.2 光學文字識別技術

光學文字識別技術(Optical Character Recognition,簡稱 OCR)是從圖片中獲取文字的主要技術手段,它受到OCR軟件識別精度的影響。由于古籍善本的字體多樣,印刷效果也差距很大,所以需要綜合多方面的因素進行考慮,將光學字元識別、人工輸入校正等相關技術結合起來。同時在OCR識別之后,需要進一步引入全文比對和人工校對進行修正。完整的光學文字識別是從古籍善本圖像中的文字以及書寫符號的切割開始,把數字圖像中的每一個文字每一個符號截斷下來,進而通過模式匹配轉換成可識別的文字和符號保存在文字庫中。這個過程同樣可能存在著誤識別,因此需要保持切割的文字,以便后續進一步進行人工校對。

4 古籍善本的數據庫構建

古籍善本的價值在于傳承、研究和教學,進一步拓展之后可具有共享、交換和流通功能[4]。因此為了讓古籍善本能更好的發揮其文化價值的同時兼顧保護,有必要利用現代信息技術進行處理之后再進行發布。古籍善本的數字化儲存可以利用開放源代碼的DSpace數字存儲系統[5]。DSpace數字存儲系統是2003年麻省理工學院與惠普公司共同研發的一種開源系統,是當前使用最為廣泛的資源管理與再利用系統。DSpace數字存儲系統適用于數字化數據庫的構建并且提供了較為彈性的定制化模塊。DSpace數字存儲系統主要分為社區(Community)、集合(Collection)兩種框架。其中社區又可以包含社區或者多個集合,而每一個集合又由一系列的項目(Item)組成,項目進一步包含文件和元數據兩種。DSpace數字存儲系統的組織樹[6]如下圖2所示。

圖2 DSpace數字存儲系統的組織樹

以內容管理發布為設計目標,對數字資源進行收集、存儲、索引、保存和重新發布。根據《紙質檔案數字化技術規范》和《信息與文獻—文件檔案數字化實施指南》等相關標準,遵循分步實施、標準統一、數據共享的原則,以基于元數據抽取的多條件整合為方式,建立古籍善本數據庫。具體的建設將首先對需求進行分析,然后經過專業的軟件對需求進行建模之后,形成古籍善本數據庫的需求規格說明書,進而根據需求規格說明書進行古籍善本數據庫的構建,在進行必要的測試之后上線運行。

5 總結

本文以古籍善本的保存現狀為基礎,繼而探討了古籍善本的數字化處理技術和古籍善本的數據庫構建方法等關聯技術。本文的研究為古籍善本的數字化保存和開發利用提供了一些新的思路,具有一定的指導價值。

猜你喜歡
存儲系統古籍光學
滑輪組的裝配
中醫古籍“疒”部俗字考辨舉隅
光學常見考題逐個擊破
分布式存儲系統在企業檔案管理中的應用
關于版本學的問答——《古籍善本》修訂重版說明
天河超算存儲系統在美創佳績
關于古籍保護人才培養的若干思考
我是古籍修復師
華為震撼發布新一代OceanStor 18000 V3系列高端存儲系統
光學遙感壓縮成像技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合