?

基于多粒度表征藏文古籍文檔版面分析方法研究

2024-01-27 13:41白瑪旺久格桑多吉扎西多吉楊欣
電腦知識與技術 2023年36期
關鍵詞:注意力機制

白瑪旺久 格桑多吉 扎西多吉 楊欣

摘要:藏文古籍文檔版面分析是對文檔圖像中插圖、文本段、文本行、標題等區域信息進行分析并提取的一種方法,是古籍數字化的重要研究課題。相較其他語種的歷史文檔,藏文古籍文檔版面布局呈現出版面結構更加復雜、字體形狀和大小風格多樣化等特點。該文針對藏文古籍文獻特征,構建手寫體、印刷體、木刻雕版三種版面結構及字體不同的藏文古籍圖像數據集,并將基于CNN和VIsion Transformer并行架構的AFFormer通用語義分割模型遷移到藏文古籍版面分析任務上。在合并數據集上不同版面區域的6個類別平均交并比MIoU達到93.6%。通過實驗表明,AFFormer模型對藏文古籍版面分析數據集上的粗粒度版面區域和細粒度文本行檢測與提取性能優于其他語義分割的基線模型,該方法在藏文古籍版面分析任務上具有較高的可行性。

關鍵詞:藏文古籍;版面分割;多粒度;注意力機制

中圖分類號:TP3? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)36-0001-03

開放科學(資源服務)標識碼(OSID)

0 引言

文檔圖像的版面布局分析是OCR任務的重要分支,是計算機視覺領域的一個長期研究課題,早期主要是基于規則[1]及機器學習[2]方法進行分割和提取。傳統方法適用于簡單布局文檔分割解析,在處理復雜場景的版面分析仍面臨諸多挑戰。隨著深度神經網絡的蓬勃發展,深度學習算法在解決自然語言處理、計算機視覺任務上展現出了強大的可行性。DLA任務可視為經典的視覺對象檢測和分割問題,利用卷積神經網絡、全卷積神經網絡、Transformer以及多模態的視覺特征來解決復雜文檔版面布局解析[3]。ChenKai[4]提出基于卷積神經網絡的歷史文檔版面分割方法,在像素級別數據上獲得了較好的分割效果。Sofifia[5]提出基于深度學習的通用文檔分割方法,該方法針對版面分割出來的不同區域進行特征提取,對提取結果進行分類,實現區域的判別。隨著版面分析領域的深入研究,也涌現出優秀的傳統方法與深度學習方法結合的版面分析算法。其中, Yang等人[6]提出多模態全卷積版面分析網絡,輸入文檔圖像及對應的文本內容,通過編碼器得到下采樣的視覺特征圖,解碼器采用文本編碼特征向量以及視覺特征圖,輸出像素級別類別分割結果,在不同數據集的DLA任務上取得良好的性能。

基于深度學習的文檔對象檢測(DOD)在外語、中文等語種的古籍文檔數據集以及印刷體文檔數據集上的研究非常成熟,而藏文信息數字化研究相對滯后,文檔版面分析任務仍處于研究階段,藏文古籍文檔版面分析主要集中在文本行切分、圖像和文本塊分割等單粒度任務上。文獻[7-8]分別提出基于連通分量分析藏文歷史文獻文本行切分方法、基于輪廓跟蹤以及基于廣度優先搜索擴展生長算法的藏文古籍文本行分割的方法,但仍無法有效地解決藏文古籍文檔上相鄰文本行之間的粘連問題,導致行級分割錯誤。文獻[9]提出了一種基于支持向量機(Support Vector Machine,SVM)版面分割方法,將圖像濾波切分為圖像塊提取特征并訓練,然后用SVM對待分割圖像中的圖像塊進行分類,根據分類結果得到粗略版面分割結果,在粗略版面分割結果的基礎上結合投影法獲得精確版面分割結果,這種方法只能局限在簡單單粒度的版面分析任務上。針對以上問題,文獻[10]利用判別式對抗網絡(Discriminative Adversarial Networks,DAN)框架,提出以語義分割的像素分類實現藏文木刻板古籍文檔的版面分割、文本區域檢測,該方法在藏文古籍版面結構單一的木刻板古籍文獻的文本區域檢測與提取具有較好的表現。

上述版面分析算法對于與之相對應的數據集是有效的。然而,不同藏文古籍版面具有不同的特點,版面元素的多樣性導致分割效果不佳,如何利用現有深度學習方法實現對藏文古籍圖像版面分析,完成圖文分割,仍是需要解決的難題之一。

針對收集到的多字體、多風格的手寫體、印刷體以及木刻雕版的藏文古籍版面圖像數據集,本文使用一種魯棒的、基于多粒度表征的數據表示方法,將藏文古籍中的文本表征分解為文本區域和文本行兩個層次分明又相互關聯的不同粒度表示。其中,細粒度表征從局部出發,能更準確地捕獲文本位置內部空間信息,結合從全局出發的粗粒度表征方法,可為細粒度表征提供更加魯棒的結構信息。

從版面布局分析,藏文古籍文檔面臨結構復雜、圖文粘連、風格差異大、圖文低質殘缺、在手寫古籍文檔中上下文本行粘連度大、字體大小不一等情況,因此本研究采用CNN和Vision Transformer并行架構的AFFormer分割模型進行像素嵌入和原型表示作為特定的可學習局部描述,取代解碼器,保留高分辨率特征上豐富的圖像語義特征,最后將不同的語義分割模型應用于藏文古籍版面分析任務上,并對比不同模型的分割效果。

1 數據構建

在藏文古籍數字化研究領域中,標注后的圖像數據集資源極度稀缺,然而深度學習任務依賴大量的標注數據集來提高模型性能及泛化能力。本文對藏傳佛教資源中心(TBRC)發布的藏文古籍文獻掃描圖進行分類收集,選擇2 000張圖像數據進行處理,由手寫、印刷體、木刻雕板三種藏文古籍文檔版面數據類型,采用Labelme圖像標注工具對藏文古籍版面進行多點標注,文檔版面布局分為背景(Background)、標題(Title)、插圖(Figure)、文本塊(Text_Block)、文本行(Text_line)、圖標題(Figure_Title)、頁碼(Page_Number)。藏文古籍文獻版式多樣,文本區域和非文本區域、相鄰文本行及相鄰字丁之間粘連度大,存在嚴重的背景干擾或者前景遮擋等情況,影響文本行定位的魯棒性,因此采取多粒度標注方式。版面布局信息及文本行輪廓標記如圖1所示。

圖像版面元素標注后生成JSON格式的標注文件,根據原始藏文古籍圖像標簽坐標生成對應的mask標簽圖,將數據集轉換成模型所對應的輸入格式,最終構建2 000張藏文古籍版面分析數據集(Tibetan Ancient Book Layout Analysis Dataset,簡稱TABLAD),其中手寫體藏文古籍版面數據集800張圖片、印刷體藏文古籍版面數據集530張圖片、木刻雕版藏文古籍版面數據集670張圖片。最后,按照8:1:1的比例劃分為訓練集、驗證集、測試集,以便進行模型訓練和評估。

2 AFFormer分割模型

傳統語義分割任務主要集中在設計有效的解碼器,AFFormer模型采用無頭輕量級結構,網絡模型總體架構如圖2所示。通過引入自適應頻率濾波器和卷積神經網絡來提升模型的性能和效率,利用基于Transformer的原型表示(Prototype Representations,PR)作為特定可學習的局部描述,去掉解碼器,保留高分辨率特征上的豐富圖像語義。通過去除解碼器來壓縮計算量,但在并行結構的精度受到低計算資源的限制,因此該網絡采用卷積神經網絡(CNN)與Vision Transformer進行像素嵌入和原型表示來節省計算成本,并引入自適應頻率濾波器代替標準自注意力機制,增強特征圖的邊緣信息,從而提高分割的精度。在藏文古籍版面分割任務上,首先輸入圖像進行補丁嵌入并CNN提取語義特征,將特征聚類為原型特征,通過并行的Transformer網絡自注意力機制來捕捉頻率信息,最后CNN將圓形表示轉換為像素描述。用原型語義來描述像素語義信息,在每個階段給定一個特征[F∈RH×W×C],將初始化[G∈Rh×w×c]作為圖像原型,其中,G中的每個點作為局部聚類中心,其對應區域[α2]中進行加權初始化,公式如下所示:

[G(s)=i=0nwixi]

其中,F表示輸入圖像嵌入后的特征,G表示原型特征,[n=α×α,wi表示xi]的權重。

3 實驗分析

3.1 實驗環境及參數設置

本文在自定義四種數據集上進行性能對比,訓練過程均基于Ubuntu 20.04.2 LTS操作系統, Python 3.8.17,Pytorch 1.13.1,CUDA 11.7,cuDNN 8.7.1,NVIDIA GeFore RTX 2080Ti GPU 環境下進行實驗。

3.2 評價指標

文檔版面布局分析任務實質上是多分類任務,文章采用語義分割模型的評估標準對藏文古籍文檔掃描圖像的粗粒度版面布局和細粒度文本行區域的分割檢測結果進行評價。本文藏文古籍版面分割數據集包含背景有7個類別,表示為k+1,i表示真實值、j表示預測值、pij表示i預測為j,計算每一個類別的平均交并比(Mean Intersection over Union,MIoU),計算公式如下所示。

[IoU=intersectionunion=A?BA?B]

[MIoU=1k+1i=0kTPFN+FP+TP=1k+1i=0kpiij=0kpij+j=0kpji-pii]

其中,TP(True Positive)表示將正類預測為正類,FN(False Negative)表示將正類預測為負類,FP(False Positive)表示將負類預測為正類。

3.3 實驗效果

本文構建了三種不同風格的藏文古籍版面數據集,使用UNet、Knet、DeepLabV3+、Segformer、PSPNet、Mask2former、AFFormer模型進行對比實驗,從平均交并比(MIoU)指標可以看出AFFormer模型在三種數據集上的分割效果比其他模型有顯著提升,在手寫體、印刷體、木刻板三種版面數據集上MIoU分別達到93.39%、97.89%、94.89%。具體實驗效果可視化如圖3所示。

4 結束語

為了解決藏文古籍版面上的圖、文本、標題以及上下文本行之間粘連導致邊緣輪廓不清晰、上下文信息丟失等問題,本文在藏文古籍版面特點基礎上,構建手寫體、印刷體、木刻雕版三種不同版面及字體風格的版面分析數據集,并采用多粒度方式標注版面元素位置信息。為了探索藏文古籍版面區域更細粒度的多尺度特征,本文使用卷積神經網絡CNN與Transformer融合模型AFFormer版面分割網絡。該網絡結構輕量化同時能夠精準分割藏文古籍版面區域以及多字體古籍文本行,提高對古籍版面區域特征的表征能力,相比文獻[10]提出的藏文古籍木刻版文本區域提取方法,AFFormer模型在手寫體、印刷體、木刻雕版三種數據集上細粒度文本行區域的檢測提取上MIoU均提升5%,表明該算法能較好地平衡不同版面區域分割精度,在藏文古籍多粒度版面分割任務上可行并且有效。

參考文獻:

[1] FRANK LE BOURGEOIS,ZBIGNIEW BUBLINSKI,HUBERT EMP-TOZ.A fast and efficient method for extracting text paragraphs and graphics from unconstrained documents[C].ICPR, 1992;272–276.

[2] ANGELIKA GARZ,MARKUS DIEM,ROBERT SABLATNIG.Detecting text areas and decorative elements in ancient manuscripts[C].ICFHR,2010:176–181.

[3] WEI LIU,DRAGOMIR ANGUELOV,DUMITRU ERHAN,et,al.Ssd:Single shot multibox detector[C].ECCV, 2016:21–37.

[4] CHEN K,SEURET M,HENNEBERT J,et al.Convolutional neural networks for page segmentation of historical document images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR).Kyoto,Japan.IEEE,2017:965-970.

[5] ARES OLIVEIRA S,SEGUIN B,KAPLAN F.dhSegment:a generic deep-learning approach for document segmentation[C]//2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR).Niagara Falls,NY,USA.IEEE,2018:7-12.

[6] YANG X,YUMER E,ASENTE P,et al.Learning to extract semantic structure from documents using multimodal fully convolutional neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:4342-4351.

[7] ZHOU F M,WANG W L,LIN Q.A novel text line segmentation method based on contour curve tracking for Tibetan historical documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2018,32(10):1854025.

[8] 李金成,王筱娟,王維蘭,等.結合文字核心區域和擴展生長的藏文古籍文本行切分[J].激光與光電子學進展,2021,58(2):113-123.

[9] 任方針,王秀友,朱弋,等.基于SVM的藏文古籍版面分割[J].阜陽師范大學學報(自然科學版),2021,38(2):92-96.

[10] 貢去卓么,才讓加,三知加.基于語義分割的藏文古籍文檔文本區域檢測[J].計算機仿真,2022,39(5):448-454.

【通聯編輯:代影】

猜你喜歡
注意力機制
基于注意力機制的行人軌跡預測生成模型
基于序列到序列模型的文本到信息框生成的研究
基于深度學習的手分割算法研究
從餐館評論中提取方面術語
基于LSTM?Attention神經網絡的文本特征提取方法
InsunKBQA:一個基于知識庫的問答系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合