?

檔案數字化過程中OCR 技術的運用

2022-07-14 01:36王效鵬
魅力中國 2022年3期
關鍵詞:識別率檢索圖像

王效鵬

(山東省菏澤市牡丹區人力資源和社會保障局,山東 菏澤 274000)

在信息時代背景下,檔案數字化成為當前檔案管理工作的一個重點內容,但是從當前發展實際情況來看,掃描所產生的電子檔案是以圖像形式存在的文件,而不是真正意義上的文本文件信息。也就是說,依托計算機系統僅僅鞥能夠查看到檔案信息的外在形體,沒有在真正意義上識別出檔案信息的內在文字信息,用戶雖然使用計算機系統看到了檔案信息原本的面貌,但是卻沒有根據實際情況合理利用這些信息,最終對電子檔案利用工作造成了很大的不變。為了能夠根據用戶的需要為其提供有針對的檔案管理服務,獲得文本形態的電子檔案,實現檔案管理的數字化、科學化發展,相關人員提出了OCR 技術在檔案數字化管理中的應用主張,旨在能夠在該技術的支持下提升檔案管理的科學性、有效性。

一、OCR 技術的應用內涵和發展歷程

OCR 技術是光學字符識別技術,在具體實施操作的時候會通過光學輸入的方式來將文字信息轉變為一種圖像信息,而后在文字識別技術的作用下會將相關圖像信息轉變為能夠被計算機識別和應用的信息形式。從當前發展實際情況來看,OCR 技術成為檔案管理領域的重要技術形式,在該技術的支持下能夠實現全文字識別模式下的檔案掃描管理,在這個過程中會促進我國檔案數字化管理發展,實現我國檔案管理工作的數字化發展,為相關人員查詢和利用檔案信息提供必要的技術支持。OCR 技術的應用流程如下:影像輸入、影像前處理、文字特征抽取、比對識別、人工識別和人工校正。在經過一系列識別分析之后會將最終的識別結果顯示出來,而后保存。

OCR 的概念是由德國科學家Tausheck 在1929年提出來,后來美國科學家Handel 也提出了利用計算機掃描等技術對文字進行識別的想法。在社會科技的發展支持下,OCR 技術已經從原來的字符識別率低于50%到現在針對印刷體字符識別正確率達到了99%以上,并可以識別宋體、黑體、楷體等多種字體的簡、繁體;也能夠對不同的字體排列方式識別;一些技術的識別速度很快,一分鐘到兩分鐘能夠完成1000 字符的識別。站在技術應用角度分析這項技術形式,其可以被完全應用到檔案數字化管理中,在檔案信息識別中顯示出較高的識別率和較快的識別速度。

二、檔案數字化過程中OCR 技術的使用流程

檔案數字化過程中OCR 技術的使用主要遵循這樣的操作流程:影像數據信息的輸入管理、影像前處理、文字特征的提取、綜合比對識別、人工校正、輸出和保存。從實際應用角度來看,檔案數字化過程中OCR技術的使用會縮短手工操作的時間,有一些圖像信息的識別僅僅需要零點幾秒即可,且在圖像處理的過程中會優化前期處理和后期校對比較。且和傳統意義上的文字識別相比,所獲得的圖像信息更為精準。檔案數字化過程中OCR 技術的使用僅僅使用簡單的人工操作即可,工作效率高,在處理檔案的過程中會在最大限度上節省人力資源的消耗,能夠幫助勞動者從繁瑣的勞動中解脫和釋放出來,在最大限度上實現資源的合理優化配置。

三、檔案數字化過程中OCR 技術的運用優勢分析

第一,提升檔案數據信息的輸入速度。檔案數字化過程中OCR 技術的運用會在使用檔案資料信息之前對檔案資料信息的內容進行識別整理,由此會使得檔案信息的錄入方式實現質的突破。第二,提升檔案數據信息的錄入質量。在OCR 技術支持下的檔案處理雖然仍然無法保障檔案信息識別處理的精準度,但是在檔案信息質量服務方面會有效提升檔案信息的質量。第三,OCR 技術在使用的時候只需要單人操作即可,和一般情況下的檔案管理相比,OCR 技術支持下的檔案管理會簡化檔案操作,在保障檔案信息有效使用的同時會減少人力資源在檔案管理中的消耗。

四、OCR 技術在檔案數字化發展中的具體應用

(一)創新著錄標引方式

檔案目錄數據庫打造的一個重要基礎是檔案數字化工作,當前,在技術的支持下我國社會范圍內的很多檔案館都打造出了完善的目錄庫。但是有很多檔案庫采取的是手工操作方式,檔案處理繁瑣、效率低下。

OCR 技術在檔案管理中的使用會為人們提供一種新的著錄方式,在這種著錄方式的支持下會實現計算機系統錄入管理。檔案管理工作人員會直接從OCR 之后的全文中尋找到著錄項,包含題目名稱、文號、責任者等,在查找到這些信息之后會將信息復制粘貼到目錄庫對應的字段中,從而實現對檔案信息內容的自動化檢索。OCR 技術的使用為檔案目錄的創建和錄入管理提供了一種全新的方式,工作人員能夠從OCR 中尋找著錄項目,而后將基本的復制粘貼操作放入到目錄庫中對應的段落即可完成操作。但是從實際應用操作角度來看,受OCR 技術本身使用局限的影響,基于該技術的檔案管理缺乏實踐操作的可行性,在未來,需要相關人員因地制宜地采取恰當的措施來解決檔案管理的實踐操作可行性,逐漸完善OCR 技術形式。

(二)實現真正的全文檢索

檔案信息資料中的全文檢索包含兩個類型,一個是對檔案目錄庫信息的檢索,在找到關聯條目后會打開對應的檔案全文。這種檢索方式是當前檔案館常用的檔案檢索方式。另外一種檢索方式是全文檢索,即對檔案全文庫逐字逐句的檢索,幫助用戶從龐雜的數據庫中獲取自己所需要的檔案信息資源。第二種檢索方式離不開OCR 技術的支持,在具體實施操作的時候通過掃描圖像中的文字會將其轉變為對應的文本格式。

(三)支持雙層PDF 技術

雙層PDF 技術形式是指每一個PDF 文件的每一頁都會包含兩層內容,上層是掃描所獲得的原始圖像,下層是OCR 技術支持下的文字識別結果。PDF雙層技術形式被人們廣泛應用在數字圖書館領域,如在CNKI 數據虧中檢索到的PDF 格式的電子文獻就使用了雙層PDF 技術。從實際實施操作上來看,OCR 技術中的雙層PDF 技術既能夠保證檔案的原真性,而且還能夠根據用戶的需求來選擇、復制和搜搜文字信息。

(四)拓展檔案用戶的利用面

在以往的檔案信息利用管理中,用戶是一般依托檔案憑證價值來獲取和利用信息。比如政府部門行使自己的職能作用去查閱某份文件信息、居民使用身份證來查詢房產信息、結婚證發放、學籍卡管理等。這些檔案信息在使用的時候對檔案本身的原真性有著較高的要求,在很多情況下檔案信息的使用是需要得到紙質文檔支持的。

在人們對檔案資料的深度挖掘下,檔案資料信息的作用也開始更加多元,檔案除了具備憑證價值,還會和圖書、情報等一樣具備一定的情報價值、參考價值,如何充分利用和挖掘檔案資料中潛在的價值信息成為相關人員需要思考和解決的問題。比如在利用檔案資料信息開展學術研究的時候,用戶要注重密切觀察檔案的知識屬性、信息屬性,如果檔案是通過手動方式保存的,就會出現操作不變的問題。借助OCR 技術能夠將紙質檔案資料信息轉變為一種數字化的形式,借助OCR 識別會實現對檔案信息的全網絡檢索、網絡傳輸,進而誒用戶異地檢索和引用數據信息提供重要支持,提高檔案資源信息的綜合利用率。

五、提升檔案數字化過程中OCR 技術識別率的基本辦法分析

識別率高低直接關系到檔案數字化過程中OCR 技術的應用成效。從實際應用操作的角度來看,OCR 技術如果具備較高的識別率不僅能夠精準的掃描信息,提升檔案信息的錄入速度,而且還會降低檔案資料信息的后期處理工作量。如果OCR 技術的識別率較低,為了能夠提升識別率,就需要在檔案信息后期處理中消耗較多的人力、物力和財力來校對檔案信息。在檔案數字化發展中,通過提升OCR 技術的識別率會降低檔案數字化建設中的成本消耗。

(一)科學設定掃描參數

第一,分辨率。分辨率是影響檔案數字化過程中OCR 技術識別率的重要因素,圖像識別依靠掃描實現,因此,只有獲得足夠的圖像信息才能夠提升檔案數字化過程中OCR 技術識別率。但是需要注意的是,圖像分辨率和檔案數字化過程中OCR 技術識別率不一定是正比的關系,圖像分辨率較高也會引發圖像掃描失真現象,最終不僅無法提升檔案數字化過程中OCR的識別率,而且還會因為圖像文件占據較大空間而影文件的存儲、傳輸。第二,合理選擇色彩模式。黑色、白色圖像掃描不管是在掃描速度,還是在掃描正確率上都會遠遠超過其他顏色下的圖像掃描。為此,在沒有特殊要求的情況下,會選擇使用白色和黑色來完成圖像掃描,如果沒有黑色和白色的圖像,也可以選擇使用灰色的圖像完成掃描。第三,亮度和對比度的選擇。在數字化檔案發展之前,我國檔案存儲形式為紙質存儲。但是在實際存儲管理中,由于一些檔案資料信息的存儲年份久遠,紙質檔案的底色會泛黃,字跡也會變得模糊。盡管是使用黑色、白色、灰色的掃描圖像也無法滿足實際對檔案的要求。因此,為了能夠提升檔案數字化過程中OCR 技術的使用識別率,需要相關人員結合實際情況來調整掃描參數,調節圖像的亮度對比度。在掃描完成之后,如果圖像漢字字跡不清晰,操作人員也可以采取一些措施適當地降低其亮度,在降低亮度之后開展二次掃描;如果在掃描后發現字體比較小、筆劃粗糙,可以采取措施提升其亮度;在調節亮度的時候如果文字出現了變淡的情況,還需要采取措施增加圖像的對比度,在這個過程中加重原本圖像文字的顏色,最終提升檔案數字化過程中OCR技術識別率。

(二)優化圖像處理工作

在數字化檔案中會有很多文字是以美工體或者藝術體的形式出現,這種非常規表現形式上的文字形式會降低檔案數字化過程中OCR 技術的識別率。另外,如果圖像中的文字出現了污垢,也很容易使得OCR 技術軟件在識別的過程中出現判斷失誤的問題。因此,為了能夠規避以上問題的出現,在開展OCR 技術識別操作之前,相關人員需要采取積極的措施來糾正圖像中的字體,去除圖像上的污點,通過這樣的方式能夠有效提升OCR 技術支持下的圖像分辨率。另外需要注意的是,圖像去污也是檔案掃描操作管理中的重要工作內容,在圖像掃描過程中不能夠忽視。

(三)做好人工校對管理工作

在檔案數字化管理的過程中,計算機系統也容易出現一些固有的問題,且在同一個地方一個問題有時候會反復出現,最終導致檔案管理工作無法按照既定的程序完成操作,檔案操作管理缺乏靈活。為此,在檔案數字化管理的過程中還需要適當的配合使用人工識別校對,通過人工識別校對來有效提升OCR 技術的識別率。

從實際應用操作角度上來看,在OCR 技術軟件被識別之后,系統會將識別的結果通過不同的兩行展現出來,一行是圖像,另外一行是識別后的結果。OCR 技術軟件對于自身潛在的識別問題會通過不同的顏色來表示出來,目的是為用戶發現和解決錯誤提供支持。但是在具體操作中我們會發現有一些錯誤問題無法使用變色的方式處于展示和處理,而一些出現變色的圖像、數字也不一定是錯誤的。由此要求工作人員在開展人工校對分析的時候要對以上問題進行深入的分析檢查,不能夠完全按照提示來開展檢驗。

結束語

綜上所述,在現代信息技術和科學技術的深入發展下,檔案在人類社會生活中的作用日益凸顯?;跈n案數量、類型的增多,人們對檔案處理提出了更高的要求。傳統的案卷級和文件級目錄檢索技術已經無法適應當前網絡時代的搜索要求,檔案全文數字化是檔案管理的一種必然。比較當前的各類檔案數字化技術,使用OCR 技術能夠有效提升檔案處理速率和效率,因而,在未來,需要相關人員進一步強化對OCR 處理技術的重視和應用,從而更好地推進我國檔案數字化發展。

猜你喜歡
識別率檢索圖像
攝像頭連接器可提供360°視角圖像
淺析p-V圖像中的兩個疑難問題
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
通過實際案例談如何利用外文庫檢索提高檢索效率
瑞典專利數據庫的檢索技巧
英國知識產權局商標數據庫信息檢索
檔案數字化過程中OCR技術的應用分析
基于PCA與MLP感知器的人臉圖像辨識技術
科技文檔中數學表達式的結構分析與識別
人工智能現狀和發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合