?

IQA在數字化文獻質量評估中的應用研究

2016-11-30 05:54張海燕
大學圖書情報學刊 2016年6期
關鍵詞:掃描模式頁面分辨率

張海燕

(南京信息工程大學,210044)

?

IQA在數字化文獻質量評估中的應用研究

張海燕

(南京信息工程大學,210044)

IQA(Image Quality Assessment圖像質量評價)是一種測評數字化文獻質量優劣的客觀方法。文章利用IQA對不同掃描模式、不同掃描分辨率獲得的數字化文獻分別進行圖像質量測值和文字識別錯誤測值,結合圖表對測值進行了波動分析。研究發現,數字化文獻的質量高低并非完全取決于掃描分辨率,在常規的黑白、4階灰度掃描模式下,并非掃描分辨率越高,圖像質量就越好,而是當分辨率取200 - 400 DPI時獲得的圖像質量測值最低而圖像質量最好?;跍y值的波動分析,進一步給出了文獻數字化在不同模式下比較理想的掃描分辨率范圍。

文獻數字化;文獻掃描;IQA; 圖像質量評估

1 引言

隨著科技的進步,電子文獻的興起打破了紙質文獻長期一統天下的局面。對于非再生性的古籍文獻、拓片、甲骨、家譜、輿圖、手稿、地圖、書籍、樂譜等,如何能夠更好地得到傳承使用及保存,如何能夠被更廣泛地閱讀,文獻數字化技術應該說是解決這一難題的有效途徑[1]。文獻的數字化過程一般是從掃描文獻開始,然后對掃描的圖像做進一步預處理,最后形成電子文檔。雖然技術上還存在著標準的多樣性與需求的單一性的矛盾等問題,但是文獻數字化技術也已經逐漸形成了一定的技術標準,然而對數字化文獻的質量進行評估的研究卻并不多見,目前大部分研究主要集中在圖像質量評價上[2]。

最近十幾年,電子文獻直接采用文本文檔,不但閱讀方便,而且可以直接拷貝引用。然而不管是紙質文獻,還是電子文檔,讀者都是通過眼睛閱讀頁面的文獻直接獲取其中的信息,頁面質量越好,讀者閱讀起來就越舒服?;贗QA的數字化文獻質量評估,就是根據人眼的生理特性和人的視覺心理,提出基于圖像質量評價體系的文獻數字化理論依據和操作方法,對不同掃描模式下的數字化文獻的質量進行客觀分析,根據文獻來源科學地確定掃描模式和掃描分辨率,提高了文獻數字化質量。

2 數字化文獻質量的測量

2.1 數字化文獻質量的基本要求

文獻數字化不但對文獻有保護作用,同時也有利于文獻的利用和研究[3]。東南大學朱成林等認為在古籍文獻數字化過程中,OCR(optical character register,光學字符識別)等技術的識別正確率不高,導致研究效率低下,不同機構開發的古籍數據庫的質量差距也較大,為保障研究的可信度,研究者在參考數字文獻的過程中依然需要與紙本原文進行對照[4]。要解決這一問題,數字化后的電子文獻就必須符合兩個基本要求:(1)文本能夠拷貝引用。如果文獻不能被直接拷貝引用,還需手工輸入,就會使得文獻的利用研究效能大為降低。(2)文本清晰,閱讀舒服。要求數字化后的文獻能夠符合人眼的生理特性和人的視覺心理,讀者無需再參考紙本文獻,在閱讀電子文獻時的感覺和閱讀原有的紙質文獻一樣清晰舒服。不管是數字化文獻,還是純文本的電子文獻,必須符合上述兩個基本要求,讀者才會接受并愿意典藏起來。

文獻能夠拷貝引用涉及到OCR技術。如何降低OCR的文字識別錯誤率,提高OCR圖像質量值是問題的關鍵。文獻能夠舒服清晰地閱讀涉及到人眼的視覺特性和圖像質量。文獻的圖像質量是首要的,即使是純文本的電子文獻。

2.2 影響OCR準確率的主要因素

OCR這一概念最早于1929年由德國科學家Tausheck提出[5]。隨后美國科學家Handel描述了利用光學技術對文字進行識別的概念模型。OCR技術即是利用光學技術對文字和字符進行掃描識別,并將其轉化為計算機內碼的技術。影響OCR準確率的主要因素包括:

(1)OCR軟件的性能。不同的OCR軟件有著不同的性能,導致這種差異的原因是多方面的,其中最主要的原因是軟件開發和傳承方面。起步早、技術力量雄厚的軟件公司,OCR軟件的內核模式、特征提取等方面有著明顯的優勢,其軟件的文字識別準確率會遠遠高于其它一些起步晚、實力小的公司。

一款好的OCR軟件,其高性能不僅體現在版面分析、邊緣提取、傾斜校正、去噪、對灰度圖像二值化、對二值圖像偽灰度化等圖像的預處理方面,同時在樣本字庫的建立、文本行字的切分、預分類、特征提取、匹配方法、細分類、識別字典、詞句確認等文字識別方面,性能也會高于一般的OCR軟件,尤其在表格、字體識別等細節方面優勢明顯。

CHIP全球測試中心中國實驗室在2000年便對中國6款著名的中文OCR軟件從圖像預處理、版面分析、理解、文字塊檢出、文字的行、字切分、圖像文字的規范化、文字特征的提取、與特征庫比較分類、判別、后處理等各個方面進行了重點測試。測試結果:漢王OCR新世紀專業版以其令人信服的高識別率遙遙領先,尚書五號OCR增強版與漢王 OCR新世紀專業版使用的是同一個程序內核,也擁有極高的識別率。此外,丹青中英文文件辨識系統V4.0、清華紫光OCRMF7.5、清華文通TH-OCRMF7.5等,也被廣泛應用。

(2)文獻的來源。數字化文獻的來源很多,不同來源的數字化文獻有著不同的特質,需要不同特質的OCR軟件與之配套。如,針對發黃的古籍善本需要注意標點符號的識別,繁體字、通假字等字體的轉換[6];對于陳舊版本的樂譜則需要注意音符的附點、連線的識別,必須利用計算機光學樂譜識別技術(OMR),把樂譜圖像自動轉化為通用的數字音樂格式[7];票據的OCR識別對識別結果的精度要求很高,誤識率理論上要求趨近于零,識別對象較少,主要集中于金額、日期、賬號[8]。因此,針對不同待識別對象,采用不同“特質”的OCR軟件,文字識別的準確率將大大提高。

(3)數字化設備設置。文獻數字化采用的設備主要是掃描儀。針對不同的文獻,掃描儀如何設置,掃描模式、掃描分辨率如何確定,是影響數字化文獻質量的重要因素,也是提高數字化文獻質量的關鍵。

2.3 基于人眼視覺特性的圖像質量評價

由于人眼是圖像的最終觀測者, 所以主觀圖像質量評價方法是惟一最準確的方法,傳統的圖像質量評價算法由于沒有充分考慮人眼的視覺特性,使得質量評價結果與實際圖像的人眼感知質量不符[9]?;谌搜垡曈X特性的圖像質量評價就是根據人眼對圖像邊緣信息非常敏感這一特性,通過比較失真彩色圖像與原始參考圖像的邊緣,以及除邊緣之外的背景相似程度,最終確定失真圖像的質量,這樣的評價結果更接近圖像的實際視覺感知質量。

2.4 IQA在測量文獻質量中的應用

2.4.1 IQA原理簡述

在自然界中,自然場景內本身具備大量的平坦區域和豐富的邊緣和輪廓信息,其頻率分布有一定的規律——人類大腦皮層細胞的響應與自然場景的統計信息呈對數關系[10]。自然場景中的平坦區域以及邊緣和輪廓的關系,首先表現在空間上相關,即:圖像空間上相鄰的像素點有著相似的灰度值,像素點在空間上離得越遠,兩者灰度值差異越大。如果一個像素點越亮,則相鄰的像素點也越亮,隨著像素間間距的加大,相關性隨之降低。根據自然圖像的變換不變性,借助傅里葉變換,可以從像素的亮度和坐標的相關性中恢復出圖像的“自然性”。

考察數字化文獻的質量,就是考察文獻中每個頁面的圖像質量。每個頁面的圖像并非是掃描儀直接掃描館藏文獻而成,還必須經過傾斜、二值化等圖像預處理環節,最后才能形成數字化文獻[11]。無論掃描儀的質量多么高、圖像預處理環節多么完美,與原文獻資料相比,用戶所看到的數字化文獻總是存在或多或少的失真。圖像的失真不是人們所期望的,但利用人眼的視覺特性,建立相應的圖像質量評估(IQA)模型可以評估這些失真。失真越大的圖像質量越差,反之,圖像質量越好。利用IQA方法,可以方便地測量出數字化文獻中每頁圖像的評估值;并能根據這些值判斷出圖像的自然度。

2.4.2 IQA測量文獻頁面質量

數字化文獻是由一頁一頁的圖像構成的,測定數字化文獻的頁面質量,要把每一頁圖像提取出來,然后利用IQA圖像評估方法,測定頁面圖像質量值。

數字化文獻頁面的提取采用PDF Image Extraction Wizard,可以批量通篇提取,也可以設定頁碼范圍提取圖像頁面。電子文本文獻盡管本質上不是圖像,但因為最后的顯示是借助于字符碼調用系統字庫圖像,所以最終仍是以圖像形式展現在用戶的面前,字符圖像和背景構成的畫面就是讀者閱讀的圖像。這種圖像如果質量差,用戶閱讀不舒服,就會影響文獻的閱讀效果。用戶的閱讀界面就是IQA要評估的圖像,因此可以通過屏幕截圖,采樣歸檔。

3 多種掃描模式下的文獻質量測評

3.1 多種模式下的數字化文獻測量

數字化文獻的圖像質量,就是文獻每個頁面的圖像質量的平均。每個頁面的圖像質量雖然跟原有文獻的質量有著直接關系,但數字化過程中掃描模式的設置以及頁面的預處理,也在很大程度上影響著一幅圖像的質量。這里采用HP服務器的廣告頁面作為數字化的源文獻,頁面為奶油背景色,文字有黑白的、有彩色的,還有internet網址,是測量數字化的良好選擇。掃描儀是方正z3000,其分辨率是1600x1600dpi。選用清華同方的Cajviewer測量OCR文字識別準確率。圖像質量的測量采用MATLAB平臺上的全盲圖像測量軟件Natural Image Quality Evaluator (NIQE)[12]。

利用NSS像素和相鄰像素之間的對數規律及圖像與距離預測系數矩陣,得出了較好的圖像質量評估值,建立了客觀評估值與圖像內容的相關性,而且運算方便,精度高。

掃描時共分七個分辨等級,分別是75、100、200、300、400、600、1200(DPI),掃描模式分4個等級,即黑白(bw)、四階灰色(gray)、256彩色(8bit)、真彩色(24bit)。所有的掃描圖像都用PHOTOSHOP傾斜矯正、頁面切割等預處理,以避免次要因素影響到最終的結果評析。這些掃描圖像最終形成PDF格式的文獻,以便閱讀和測量。

軟件在進行OCR識別時,能夠識別半個字符或者大句號識別為小句號的,文字錯誤值設定為0.5。圖像質量的測量值越小表示圖像質量越高。得到的圖像質量測量值如表1所示,文字識別錯誤值如表2所示。

表1 圖像質量測量值

表2 文字識別錯誤值

3.2 測量結果評析

為了直觀、方便地分析測量結果,下面給出了圖像質量測量值和文字識別錯誤值的二維坐標圖,如圖1、圖2所示。

根據圖1和圖2的結果分析,不難得出以下結論:

(1)從圖1可以看出掃描模式為bw黑白模式下,掃描分辨率設為200DPI,圖像質量值最低,表明此時圖像質量最佳,隨著分辨率的增高反而圖像質量值增大,圖像質量越差;對于gray灰度模式、8bit彩色模式、256bit真彩模式下,掃描分辨率在600DPI處,圖像質量值最低,圖像質量最佳。因此對于不同類型的文獻,為了保證數字化后文獻質量,可以采用不同的分辨率。如水墨畫、油畫等的數字化,掃描模式分辨率可以選擇600DPI以上,同時選擇真彩模式。而黑白的純文本(包含發黃的古籍文獻)類型的數字化,分辨率可以選擇200至400DPI之間,甚至只考慮200DPI的分辨率。

圖1 圖像質量值

圖2 文字識別錯誤率

(2)從圖2可以看出,分辨率在75-200DPI之間時,各種掃描模式的文字識別錯誤個數均產生了一個很大的躍變,分辨率在75DPI處的文字識別錯誤個數甚至遠遠超過19;掃描分辨率在200-400DPI之間,圖像質量整體比較穩定,但是文獻掃描模式設為8bit彩色模式時,分辨率在300DPI處文字的識別錯誤個數發生明顯躍變,故應避免將分辨率設在300DPI附近;當分辨率設在400DPI-1200DPI之間時,黑白、灰度及彩色模式下文獻識別錯誤率都很理想,近乎為零,但掃描模式為24bit真彩色模式,掃描分辨率在600DPI處文字的錯誤率發生明顯的躍變。這主要是由于掃描儀內核軟件插值所致,因此24bit真彩色模式下分辨率設為300-400DPI或1200DPI時文獻質量最優。因此,在實際工作中進行文獻數字化時,需要考慮機器分辨率的范圍,掃描分辨率也必須避開掃描儀內核軟件插值后的分辨率,不能簡單地認為數字化時分辨率越高文獻質量越好。

(3)數字化工作可以從質量評估開始。在實際進行數字化工作時,應首先進行源文獻的質量評估,然后進行不同掃描模式下文獻質量測評;根據測評結果再進行大規模的數字化。不同模式的文獻質量測量值可以相互參考,但不能直接比較,如黑白的圖像質量值是19,真彩色的圖像測量值為13,卻不能表明黑白模式的文獻質量比真彩模式的文獻質量差。

研究選取圖像的視覺感知重要區域作為考察對象,一方面它提供了可靠的線性規律,另一方面它可以很好的解決客觀評價值與圖像內容相關性的問題。原始圖像視覺感知重要區域的子帶能量在對數域內具有很強的線性規律,而失真圖像卻會破壞這種規律。以上是比較宏觀的描述,在具體評價的時候,可以從影像各個波段的最小值、最大值、值域、均值、標準差、波段間的協方差和相關系數等具體定量指標進行確認[14]。

4 結語

文獻數字化不但是數字圖書館實現的前提條件,也是個人進行科學研究可以借用的手段。如何保證文獻數字化能夠閱讀舒服、引用方便是文獻數字化一直研究的課題。利用IQA(Image Quality Assessment)圖像質量評價體系對數字化文獻的質量進行評估,可以為文獻的數字化提供一種客觀的尺度,可以使得用戶在具體文獻數字化時有了精細的參考。

文獻數字化要保證理想的質量,還必須考慮到不同的文獻類型。文獻類型不一樣,具體數字化時的要求也不一樣?;贗QA的數字化文獻質量評估方法,還可以根據不同類型的文獻,測定出理想參數,幫助用戶數字化時取得比較好的效果;同樣是書畫,但不同時期的書畫有著各自的理想系數,這也能使其數字化時多一個參考。

[1] 宋琳琳,李海濤.大型文獻數字化項目元數據互操作調查與啟示[J].中國圖書館學報,2012(5):27-38.

[2] 楊勇.圖書館館藏文獻數字化建設若干問題的思考[J].大理學院學報,2006,5(3):53-57.

[3] 李國新.中國古籍資源數字化的進展與任務[J].大學圖書館學報,2002,20(1):21-26.

[4] 朱成林,袁曦臨.中國古籍的數字化導讀研究[J].圖書館建設,2014(11):50-55.

[5] 中文OCR軟件橫向評測 漢字識別 誰強誰弱?[J].電子計算機與外部設備,2000(5):84-87,89-91,93-94.

[6] 劉金榮.古籍資源數字化過程中的問題[J].吉林省教育學院學報(下旬),2015(8):144-146.

[7] 王紫劍.館藏陳舊版本樂譜的數字化與應用[J].黑龍江史志,2014(17):278-279.

[8] 張殿東,包常新,溫尚卓.OCR技術在銀行票據識別系統中的應用[J].山東科學,2005(2):68-70.

[9] D. J. Field.Relations between the statistics of natural images and the response properties of cortical cells[J]. Journal of Optical Society of American, vol. 4, no. 12, Dec, 1987.

[10] 金波.基于自然圖像信息統計的無參考圖像質量評估研究[D].無錫:江南大學,2012.

[11] 樓斌.基于NSS與HVS的圖像質量評價方法研究[D].杭州:浙江大學,2009.

[12] A. Schaaf and J. H. Hateren. Modelling the Power Spectra of Natural Images:statistics and information[J]. Vision research, 1996,36(17):2759-2770.

[13] Naturalness Image Quality Evaluator (NIQE)[EB/OL]. [2015-10-14].http://live.ece.utexas.edu/research/Quality.

[14] 付偉,顧曉東,汪源源. 基于人眼視覺特性的彩色圖像質量評價[J].微電子學與計算機,2010(2):59-63,67.

(責任編輯:王靖雯)

Research on Image Quality Assessment of Digitalized Document with IQA

ZHANG Hai-yan

(Nanjing University of Information Science and Technology, Nanjing 210044, China)

IQA is an objective method to evaluate the quality of digital documents. In this paper, IQA is used to measure the image quality and text recognition error in different scanning modes and different scanning resolutions. The study finds that the quality level of digital documents is not completely determined by the scan resolutions. In the conventional scanning mode of black-white and fourth order gray-scale, the higher scan resolution doesn’t lead to the better image quality. The best image quality is obtained when its measured value is the lowest with the 200-400 DPI resolution. Based on the analysis of the fluctuation of the measured value, the paper further gives the ideal scanning resolution range of the literature digitization in different modes.

document digitization; document scanning; IQA; Image Quality Assessment

南京信息工程大學圖書館科技項目(nl-2015001);南京信息工程大學實驗室開放項目(15KF046)

G255

A

1006-1525(2016)06-0046-05

張海燕,女,館員。

2016-02-22

猜你喜歡
掃描模式頁面分辨率
刷新生活的頁面
EM算法的參數分辨率
原生VS最大那些混淆視聽的“分辨率”概念
一種提高CCD原理絕對值傳感器分辨率的方法
雙光能X射線骨密度儀測量腰椎骨密度不同掃描模式的對比研究*
基于深度特征學習的圖像超分辨率重建
基于CompactRIO的PAC的特點及應用
Web安全問答(3)
網站結構在SEO中的研究與應用
第二代雙源CT雙能掃描模式對胰腺癌的影像診斷價值初探
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合