?

地方文獻古籍數字化工作探索

2016-08-02 07:55古海峰
卷宗 2016年6期
關鍵詞:異體字古籍數字化

古海峰

摘 要:隨著古籍文獻數字化資源的開發與建設,地方文獻古籍數字化的進程也在有序地開展,本文從地方文獻古籍數字化的意義入手,通過列舉本館在數字化工作中遇到的問題,并提出了解決這些問題的對策和方法。

關鍵詞:地方文獻;古籍;數字化

地方文獻古籍即地方古代書籍、文獻,是綜合反映一個地區歷史進程中政治、經濟、文化、教育、歷史、地理、風土人情、人物傳記、物產資源、名勝古跡等重要內容的文獻資源,它是各地區民族歷史文化的重要載體,各地區的歷史文化和民族的精神有賴于它而傳承、延續。

筆者所在的梧州市,是嶺南古都,自建制以來,歷漢、三國、魏晉南北朝,達700多年。梧州市圖書館館藏的地方文獻古籍以方志為主,如廣西通志(清嘉慶六年刻本 )、蒼梧縣志(清同治十三年刻本)、臨桂縣志(清嘉慶七年刻本)等。這些舊方志的很多材料來自現實生活,會記載大量的人物傳記,這部分人物在正史中多半是不收錄或者記載不詳細,因此舊方志對于了解梧州地區一些特殊人物的真實生活情況,幫助更全面的還原這些人物的各種信息具有不可替代的作用。

1 地方文獻古籍數字化的意義

地方文獻古籍是珍貴文化遺產,我們既要保護好珍貴的地方文獻古籍,又要利用好地方文獻古籍給我們的精神遺產。但是地方文獻古籍往往由于保護不力,都會出現蟲蛀、殘缺、發霉等破損情況,很多館藏單位本著保護文獻的目的,都不提供對外借閱,這就產生了保護與利用不能共存的矛盾。而地方文獻古籍數字化以后,這個矛盾就不存在了,因為數字化地方文獻古籍是對原文獻的整理后以計算機數字形式呈現,它將原文獻的文化價值和文物價值分開來,既實現了地方文獻古籍的數字化永久保存,有可以使研究人員、讀者在不接觸原文獻的基礎上進行閱讀和研究。

2 地方文獻古籍數字化概念

地方文獻古籍數字化可以稱為“計算機化”,分為兩個步驟:一是古籍文獻的數字圖像化,一是古籍文字的數字編碼化。通過電子掃描、數碼照相等技術手段,可以將古籍的圖文處理成用計算機能識別和處理的數據。數字編碼化是通過多種手段以字符方式輸人計算機,現在普遍做法是在古籍文圖的數字圖像化基礎上采用OCR (光學字符自動識別)技術,再輔以人工校對。古籍數字化后,利用計算機可對古籍作進一步整理、研究,進而予以更充分的利用。

3 地方文獻古籍數字化存在的主要問題

3.1 存在重復建設現象

地方文獻古籍相對于一般古籍來說地域性十分明顯,收藏單位基本上是本地區的相關單位,可是相同收藏也十分普遍,如本館館藏的蒼梧縣志(清同治十三年刻本),廣西民族大學圖書館、廣西壯族自治區圖書館、廣西檔案局、廣西壯族自治區博物館等單位也收藏有,如果各單位都進行數字化工程,很容易產生重復建設現象。

3.2 圖像處理標準化問題

數字化工作第一個步驟是圖像掃描或拍照,由于不同的項目和工作人員變動,在圖像處理工作中會出現很多問題,例如由于設備的不同,拍照或者掃描的圖片會出現很多種格式和不同的分辨率,導致數據文件延續性很差和文件十分混亂,沒有一個同一的標準,會使得數字化成果無法達到我們數據庫建設最終預期,直接關系著數字化成果的利用效率。

3.3 文字編碼化中異形字問題

在地方文獻古籍文字編碼化過程中,大量異體字的存在是很麻煩的事,人常說“字無定量”,就是說因為漢字異體字多得無法估量。如廣西永??h壽城石壁上有幅《百壽圖》雕刻有百個壽字,除不同字體外,至少有三十種不同寫法。地方文獻古籍中復雜多變的異體字,在文字編碼化過程中處理起來非常棘手,稍不注意,就會出錯。其中常遇到的異形字問題主要有三種:

3.3.1 同字異寫,例如“半”上的兩點寫為八,“流”字右上無一點,“戶”字上部寫成一撇(戶)或一橫(戸)等。

3.3.2 訛誤異體字,即部分字長期被錯誤書寫,漸漸發展成常見態勢。這類字常見的如“擊”成了“撃”;“達”往往少了一 橫,變成“逹”字;“淫”誤寫成“潘”等。

3.3.3 用字混亂現象,現今人們區分很清楚的形近字,古人卻常?;煊?,常見的如“已一巳一己”、“戊一戌一 戍”等。

3.4 地方文獻數字化人員缺乏和素質有待提高

目前地方文獻數字化人員十分缺乏。如梧州市圖書館地方文獻和古籍的整理工作都是輔導部人員兼職,所以進行地方文獻數字化工作就會十分的緩慢,我們館早在2007年已經購買了專業的冷光零邊距掃描儀設備,但由于沒有專職人員,數字化工作經常中斷,將近10年的時間才完成少量的地方文獻的掃描工作。而且由于不是專職,人員的專業知識得不到持續的學習和提高。

4 解決方法與對策

4.1 建立統一古籍數字化的標準規范

在國家沒有建立古籍數字化標準規范的情況下,各館之間要加強交流溝通,在進行數字化項目前,要跟項目文獻有相同館藏的單位進行聯系,了解他們的情況,最好能達成一起合作開發、合作共建,這樣不僅能很好的避免重復立項,重復建設現象,還能可以實現優勢互補、資源共享。

4.2 制定數字化工作手冊,統一圖像處理標準

不論是采用照相還是掃描儀掃描的方式去獲取文獻的圖像,解析度決定了一張圖像所能呈現出來的效果。解析度所用的單位是dpi,我館在實踐中把dpi值設定為600dpi,文件格式為JPG,既兼顧了清晰度又控制文件的大小。我館還把這一標準寫入工作手冊中,并把標準上墻懸掛。這樣即使以后工作人員變動,都會按照標準來執行,使圖像數據規范統一。

4.3 異體字的同功能替換

所謂“同功能替換”,即只可替換字形,而替換前后的字形所記錄的詞語的音義不能有絲毫的改變。

對于同字異寫字,宜盡量統一成一個字形,將不常見的、字形怪異的改為常見的規范字。如 “戶”改作“戶”、“趂”改作 “趁”、“畄”改作“留”等。因為對應關系比較簡單,所以這個問題相對較好解決。對于地方文獻古籍中存在的訛誤異體字,編輯的時候一定要養成職業敏感,做到目光如炬,一經發現,立刻改回為規范字。對于常見的用字混亂現象,編輯遇到這種情況,也要有一個起碼的區分意識,不能一仍其舊,而是要能夠根據上下文語境選擇正確的字。

4.4 提高圖書館館員的綜合素質

人才是做好地方文獻古籍數字化工作的關鍵,數字化工作是技能性、專業性很強的工作,我館很重視人才的培養,每年都制定古籍人才的培訓計劃,定期派遣人員參加國家古籍保護中心舉辦的各種培訓和進修班,由于經常參加培訓,館員的技術每年都會有提高,開展古籍相關工作就會順利很多。

5 結語

雖然地方文獻古籍數字化現在還存在各種各樣的問題,但其查詢的便捷性、數字化后的便攜性等優點將極大地方便研究人員和普通讀者。地方文獻古籍只有通過數字化的開發與建設,才能使各地區的傳統民族文化更加容易傳播,被大眾熟悉,這些珍貴資源的數據庫才能易被大家利用和推廣,滿足了現代讀者對于傳統地方文化的多層次需求。

參考文獻

[1] 劉偉紅,中文古籍數字化的現狀與意義[J3].圖書與情報,2009(4): 134一137.

[2] 劉聰明,姜愛蓉,鄭小惠.信息技術在古籍數字化實踐中的應用[J].蘭臺世界,2011(5):17一18.

[3] 康爾琴,中國古籍書目數據庫建設淺議[J].圖書館界,2003, (2):14-16.

猜你喜歡
異體字古籍數字化
中醫古籍“疒”部俗字考辨舉隅
異體字字形類似偏旁的互用類型綜合字圖構建
家紡業亟待數字化賦能
關于版本學的問答——《古籍善本》修訂重版說明
偏旁省略異體字研究
高中數學“一對一”數字化學習實踐探索
高中數學“一對一”數字化學習實踐探索
關于古籍保護人才培養的若干思考
常用隸書異體字表(二)
我是古籍修復師
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合