?

AI 文字識別技術在城市規劃檔案數字化中的運用

2022-05-10 09:10路燕
科學技術創新 2022年14期
關鍵詞:界址高斯表格

路燕

(東華工程科技股份有限公司,安徽 合肥 230000)

城市規劃檔案是當地規劃部門按照現行法律規定,實施規劃審批、管理等有關工作的重要依據,還是衡量工程是否滿足有關標準的主要證據。目前,城市規劃檔案信息不斷增多,原本的查詢檢索方式對檔案資料的應用,帶來諸多不便,而應用AI 文字識別將檔案進行數字化處理,能有效解決以上問題。

1 紙質檔案數字化

數字化轉變的基本程序涉及到文件掃描、圖像處理及儲存等。具體操作是把檔案文件平整鋪在固定位置,通過高拍儀實現快速翻頁,照相機則同步拍照掃描,對得到的圖像實施智能化糾偏,形成PDF 格式的附件文檔。在現有的紙質檔案中,使用的紙張尺寸可能達到A3,甚至更大,鑒于此類尺寸的檔案并不多,因此在實踐中,會選擇使用數碼相機處理,將得到的照片插入相應的PDF 文件里。在掃描工作結束后,會按照具體的類型,分別保存在不同的位置,依托于后臺服務器,將檔案信息和附件對應起來。

2 城市規劃檔案中運用AI文字識別技術的可行性

其一,準確性。在我國部分地區的城鄉規劃檔案處理中,AI 文字識別基本上可以準確識別出至少70%的手寫文字,如果是通用印刷體,識別精準度能超過90%。其二,數字化效率。根據當下既有的文字識別方法,平均每個字符耗用的時間大致在2ms 左右,每件檔案一般會消耗3min 左右的時間。包括數據傳輸、格式調整、文字識別與人工校準多個環節。假設使用AI 文字識別,能進一步壓縮數字化處理的時間。其三,穩定性。AI 文字識別可以把各類格式的圖片與文字,在整理表格中,識別出圖像包含的表格數量,同時完成準確切割,保障處理后的圖像可以保障表格信息的完整性。其四,針對性。AI 文字識別運用到城市規劃檔案工作中,可提供自主模板設置,基于檔案的實際樣式,選擇合適的模板,在大體上可以適應城市規劃檔案內容提取、補錄的工作需要。

3 AI文字識別技術的有關討論

3.1 Tesseract

Tesseract 來自谷歌,該項文字識別引擎應當是近年來,識別率與成效相對靠前的方法,其對文字的識別準確率較高,并且擁有良好的移植性。因為此項技術能夠自建訓練庫,所以可以根據城市規劃檔案的處理需要,對文字識別引擎實施訓練,并能準確識別出不同的字體和符號。其引擎功能優秀,基本上包含分析聯通區域、確定塊區域、確定文本行與單詞、得到識別內容。(圖1)

圖1 Tesseract 框架圖

3.2 百度OCR 文字識別

百度OCR 文字識別屬于我國的老品牌,已經擁有龐大的用戶群體,并借此得到訓練集,依托于算法設計,在我國文字識別行業中排在前列。和上文的Tesseract 相較,百度OCR 可以提供更加準確的服務方案。由于Tesseract 在圖像預處理中有較好的表現,因而使用百度OCR 進行API 中,還是把圖像預處理部分交給Tesseract,由此保障整個處理過程的準確性。

3.3 圖像預處理

首先,圖像灰度化。計算機行業中,灰度數字圖像代表一個像素就能對應一個采樣顏色。擁有該特性的圖像,通常是有亮度最?。ê谏┲亮炼茸畲螅ò咨┑幕叶?,從理論角度來說,雖然該種情況可能是任何顏色的各個深淺程度,也能是各類亮度中的不同色彩。而灰度圖像和黑白圖像之間存在根本上的不同。對于計算機來說,黑白圖像僅包含黑與白兩個色彩,而灰度圖像則包含黑和白之前的各種色彩深度?;叶然幚碜兓岩粡埌喾N顏色的圖像,轉化成僅具備灰度值的灰度信息。彩色圖像的基本分量,包含R、G與B,各自對應紅、綠、藍,而灰度化處理過程,便是將顏色三個分量進行等量處理?;叶戎蹈蟮南袼攸c,會更亮(白色是像素值最大的顏色,是255);灰度值低,就會相對更暗(黑色是最小的像素,是0)。完成灰度化處理的算法,具體選擇如下:

其一,最大值法。把通過轉換的三個分量,取得的值轉化為前三個值里最大的一項,借此可得到亮度相對最高的灰度圖像。用公式表示就是:

式中,ωR、ωG、ωB各自對應R、G與B的權值,在選定不同值的情況下,能得到差異化的灰度圖像。因為人類肉眼對紅、綠與藍的敏感度排列是:綠大于紅大于藍,所以,在設置權值中,會根據上述大小情況,進行調整,這樣能獲得識別難度更低的灰度圖像。在檔案管理中,三者一般設置的權值分別是:ωR=0.2999、ωG=0.587、ωB=0.114。對于城市規劃檔案,其中有大量白底黑字的文件,使用高拍儀提取圖像中,可能會受到光線等條件的干擾,出現明顯色差,不利于信息識別,所以,要實施灰度化處理。

其次,圖像降噪。掃描件因為硬件自身的問題,圖像上會帶有諸多噪聲點,對于該種情況,Tesseract 是借助高斯低通濾波加以處理,提高圖像質量。高斯低通濾波裝置是基于高斯函數的線性平滑裝置,而所謂的高斯函數屬于密度函數,為正態分布。因此,該裝置面對服從正態分布的噪聲,有著姣好的處理效果。一維與二維的高斯函數如下:

式中,δ 是標準差。因為檔案圖像一般是二維內容,所以圖像去噪一般應用二維高斯函數。鑒于高斯函數存在可分離性,因而需對行實施高斯濾波,而后處理列的部分,利用該種處理方式,把二維高斯函數調整成一維的高斯濾波。在此函數中,標準差提高,整條曲線會更加平滑;降噪處理程度更高,圖像會更加模糊。

最后,二值化。圖像二值化過程,是把像素點灰度值處理成0 及255,讓最后保存的圖像僅包含黑白兩個顏色。根據自適應閾值的算法,按照像素灰度值,把圖像分成前景與背景,經過計算確定二者方差,以此得出差異的顯著性,最終通過篩選對應方差實現最佳類別劃分的界限,將此視為最佳預制。將灰度圖像大小設成w*h,這與像素數量對應。類別劃分的閾值是threshold,將小于此閾值的全部像素,當成前景,超過的部分則是背景。圖像總體平均灰度的表達式是:

式中,μ 是圖像總體平均灰度;ω0是前景像素數目的比例,對應的平均灰度是μ0;ω1是背景像素數目的比例,對應平均灰度是μ1。在系統分析中,會對比圖像所有灰度值,得出相應的方差,繼而確定出最佳閾值,由于方差在整個處理環節中,僅是用于對比,因此,直接將其用像素數量代替。通過二值化處理后的掃描件,能得到黑白分明的表格如下:

表1 二值化處理后的表格

4 城市規劃檔案數字化識別系統分析

4.1 系統概述

針對某城市規劃中的建筑項目進行整合,既有紙質檔案中僅有界址點。倘若在轉化成電子檔案中,只利用人工錄入,顯然是不夠高效的,對此依托于OCR 技術與其他有關手段,設計識別系統。硬件上,為準確識別出紙質資料里的界址點,配置掃描儀等設備。開發及運行平臺選擇戴爾z230,而高拍儀選擇寶 碁·點易拍E1200DS,此款儀器的主攝像頭與副攝像頭,像素分別是1000 萬與200 萬,能運用自然光線與LED等。根據基本參數來說,能適應檔案成像需要。系統軟件方面的配置,見表2。

表2 軟件配置

城市規劃檔案的數字化處理過程是:利用文字識別手段,提取界址點內容,由此得到地圖。使用高拍儀把紙質檔案文件中所有包括界址點內容的頁面,經過掃描保存,而后讀取圖像內容,根據檔案基礎版面,確定X與Y的數據。通過文本進行切割,提取X和Y?;谔卣鞣治雠c神經網絡,把X和Y轉化相應的坐標,保存在Excel 表格。而后利用圖像生成軟件,讀取表格內容,最終取得圖像。

圖2 系統運行流程圖

4.2 系統功能

基于前文對檔案文字識別系統的概述,整體可分出幾個模塊,即圖像裁剪、版面分析、字符處理、生成表格等模塊。

4.2.1 圖像裁剪

由于檔案圖像中的多余內容,會對提取坐標信息的準確度有干擾,所以在分析版面以前,需全面處理,確保圖像里僅包含界址點的內容。高拍儀最初拍到的圖像信息見表3。經過圖像識別,把圖像進行分割。在紙質版檔案中,序號位置通常是有裝訂孔,而邊長對地圖沒有價值,因而,可直接把二者切掉,最終得到圖像信息。

表3 包含界址點的圖像內容

4.2.2 版面分析

保存于Excel 表格中的版面結構,使用幾何結構與邏輯結構表示。其中,前者是對各個單元格位置實現定位與切分。而版面分析便是對掃描件實施分割,進一步識別X與Y坐標。本文此處以top-down 為例,基于對圖像所有數據實施分析,根據得到的結果對文件實行切分。此種處理方式比較簡便,主要用在只包括界址點內容的檔案。

4.2.3 字符處理

字符切分環節視為把掃描件所示的所有數字均提取出來,得到若干數字圖像,假設不能正確切分,在后續環節中就無法確定數字特征,這會影響文字識別的準確度。檔案數字化處理中,會由于某些問題干燥,導致切分處理更加復雜,比如手寫字體差異、大小不同等。目前可用在字符切分中的算法角度,此處以按照連通域進行切分的方法為例。簡言之,一個數字可以形成相應的連通圖像域,在確定各自行、列的起止位置,便能提取出一個矩形,實現字符切分。此處采用CFS分割法,整個運行流程為:把經過二值化處理的圖像,由左至右,由上到下全面掃描遍歷,假設存在黑色像素,而且從未被訪問過,可直接將其標記成“已訪問”;假設棧不為空,需要向周圍據需探測其他像素,重復以上步驟,但如果??梢允强盏?,說明當前已經探測好一個字符塊;探測任務完成后,便能得到相應數量的字符。目前,AI 發展迅猛,該領域內的諸多廠商,都已經推出比較完善的文字識別計劃,此處以百度OCR 為例,分析其識別的過程,針對數字部分,運用表格文字識別的方法。

4.2.4 生成表格

提取到的界址點坐標數據要借助Python 保存,支持生成地圖。此處選用該項技術中的xlwt(xls 文件,write 庫)保存表格。整個處理流程為:導入界址點坐標數據;創建工作表;填寫數據;保存。(圖3)

圖3 生成表格流程圖

4.2.5 生成地圖

在城市規劃檔案管理機構中,計算機配置相近,既有軟件也基本相同,如果原本的ArcGIS Desktop 均是10.0,使用C#比較合適,再加上操作頁面具有可視化的特點,能支持大部分工作者使用。在城市規劃檔案的處理中,此文所述系統主要涉及到兩個類庫:Geometry類庫與System 類庫。前者可以處理保存于特征類以及其他圖像要素里的geometry與shape。大部分用戶涉及到的幾何對象包含Point、Polygon等。在此類頂層實體意外,還存在各類幾何體。GIS采集到的的實體均具備現實存在的特點,其方位是按照所在空間參照的幾何體進行定義。在Geometry 庫內,含有投影與地理系統的相應參考對象。在研究系統中,可以選擇從空間參考方向入手,逐漸拓展空間參考的范圍,由此保障儲存內容的完整性與全面性。而后者屬于ArcGIS系統,并未與最底層。該類庫可提供所在系統內其他類庫服務功能的相應組件,在此類庫下,定義出大多數開發人員能實現的接口,例如,AoInitializer 對象,開發者應運用此對象,實現初始化。但開發者不可將該類庫進行拓展,可以選擇利用此類庫內包括的接口,把ArcGIS系統進行有效拓展。在系統運行后,讀取經過OCR 識別的全部表格文件,提取其中的界址點內容。建立SHAPE 圖層,根據地號設置名稱。因為通過OCR識別得到的表格已經用地號命名,所以此處無需更改。而后定義坐標系、創建圖層,呈現出經緯度。在點繪制成線后,利用ring函數,得到Polygon,保存在相應的文件夾內。

綜上所述,AI 文字識別能為檔案工作提供技術幫助,將紙質檔案快速轉化成電子文件。實踐中,在保障檔案文字識別、糾錯準確的技術上,還需保證檔案資料安全,針對數字化內容開展全面保密檢查,為城市規劃檔案管理夯實基礎。

猜你喜歡
界址高斯表格
農村不動產測量中界址點、界址線屬性數據快速處理方法
《現代臨床醫學》來稿表格要求
CASS地籍圖中界址信息批量轉出方法研究
統計表格的要求
基于ArcGIS的宗地圖自動化制圖研究
數學王子高斯
天才數學家——高斯
履歷表格這樣填
表格圖的妙用
從自卑到自信 瑞恩·高斯林
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合