?

視頻中藏文文本的檢測方法研究

2024-01-26 16:58索朗曲珍高定國李婧怡白瑪旺久
電腦知識與技術 2023年35期
關鍵詞:視頻檢測

索朗曲珍 高定國 李婧怡 白瑪旺久

摘要:隨著各種視頻的增多,對于大量視頻中文字的提取與監測等方面提出了更高的要求,研究視頻中文字的文本檢測和識別對語音文本的收集、視頻監測等有重要的意義。目前視頻中藏文文本的檢測、識別研究還處于起步階段,該文采用DBNet、DBNet++、PSENet、EAST、FCENet等5種基于分割的深度學習文字檢測算法對視頻中藏文字幕進行了檢測,對比分析了5種檢測算法對視頻中藏文字符的檢測性能。實驗表明,在文字檢測階段采用的漸進式擴展算法PSENet在測試集上具有更好的檢測性能,其在測試集上的準確率、召回率、F1值分別達到了0.996、0.995、0.998。

關鍵詞:視頻;藏文文本;檢測

中圖分類號:TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)35-0001-05

開放科學(資源服務)標識碼(OSID)

0 引言

基于深度學習的視頻文字檢測是指檢測定位連續的視頻幀中包含文字區域的位置。視頻字幕中所包含的文字信息有助于理解視頻,是對視頻內容的解釋說明。通過對視頻中的文字進行檢測識別來監管確保其內容積極健康,如視頻畫面中是否含有反動宣言等,在快速傳播的信息化時代下對維護國家安全、社會穩定和推動藏文信息處理的發展具有重要意義。

目前視頻中文字的檢測與識別研究主要集中在英文和中文,并取得了較好的成果,但視頻中藏文的檢測與識別研究仍處于起步階段,以往的研究主要針對現代印刷體、木刻版藏文古籍文本以及自然場景下的藏文進行檢測和識別。視頻中藏文的檢測識別與自然場景下藏文的檢測識別相似,但存在著一定的差異。視頻中的藏文字分為場景文字和人工添加文字,人工文本雖然比自然場景中的文字更加穩定,但由于視頻背景和文字實時變化、字體多樣且文字的位置和大小不固定,使得文字的檢測定位存在困難,于是有必要研究視頻中的藏文檢測與識別。

1 相關工作

目前,中英文針對視頻中的文本檢測識別方式主要有兩方面,分別是基于單幀的文本檢測和基于幀間的文本關聯?;趲g的文本關聯是指通過采用視頻前后幀間的文本關系來進行檢測定位文本區域。對于幀間的文本關聯檢測方式在按照時間間隔截取視頻幀時存在丟失文本區域的現象。進行幀間融合時若沒有足夠的幀,則文本增強效果不佳,且當使用過多的幀時會出現文本的混淆。所以幀間的文本關聯檢測方式適合用于模糊不清的視頻文本提取?;趩螏奈谋緳z測是指將動態視頻數據處理成一幀一幀的靜態圖片,然后采用文本檢測算法在單幀圖像上檢測文本區域。對于單幀檢測方式適合視頻質量較好的檢測,且單幀的處理方式不容易使視頻出現丟幀情況。由于本文實驗所使用的視頻數據質量較好,所以本文采用基于單幀的文本檢測方式。2019年,趙星馳[1]等人針對提取視頻內部自然場景及人工添加文本,使用目標檢測YOLOv3與基于實例分割的文本檢測PixelLink相結合的方法檢測提取視頻內部的場景及人工添加文本。2020年張慧宇[2]等人采用基于候選框的 CTPN 算法,對不同背景的視頻文本具有較好的定位效果。2021年,常為弘[3]等人在檢測階段采用基于改進的文字檢測算法CTPN,將CTPN原有的基于VGG16的特征提取網絡替換為帶有殘差結構的特征提取網絡,并在每個殘差塊中添加了通道注意力機制和空間注意力機制,對重要特征賦予更高的權重,實驗表明,添加了殘差結構和通道注意力機制的檢測模型效果更佳。

目前,針對視頻中藏文的檢測相關研究較少,視頻可以切分成連續的幀圖像,關于圖像中的藏文文字檢測與識別的相關研究主要有,王夢錦[4]采用CTPN算法和EAST算法對藏文古籍文本進行了檢測,實驗表明CTPN模型比EAST模型在其藏文古籍文本測試集上檢測的準確率更高,達到89%。芷香香[5]采用基于分割的文字檢測算法PSENet等對多種字體的手寫藏文古籍文本進行檢測,并對比了不同文本檢測算法對不同大小字體的文本檢測效果。洪松[6]等人采用可微分的二值化網絡DBNet檢測自然場景下烏金體藏文,在測試集上的準確率達到89%。仁青東主[7]針對藏文古籍木刻本復雜版面特征,采用基于候選框的文本檢測算法CTPN,實驗結果表明,在其測試集上的準確率達到96.31%。侯閆[8]采用基于分割的可微分二值化網絡DBNet檢測烏金印刷多字體藏文,在其測試集上的準確率達到99.82%。李金成[9]受基于分割的思想提出一種文本實例中心區域邊界擴增的文字檢測網絡模型,該方法在其藏漢雙語場景文字檢測測試數據集上準確率達到75.47%。

由上述可知,基于深度學習的文字檢測算法在不同場景下藏文圖像檢測上取得了較好成果。本文通過參考和借鑒一些成功應用于中英文視頻檢測模型,開展研究藏文視頻檢測的任務。本文首先利用網絡爬蟲收集大規模藏文視頻數據,并對其進行預處理和標注,在此基礎上根據視頻特點探究適合藏文視頻文本檢測的方法。本研究選用5種基于分割的深度學習文本檢測算法對視頻中藏文字幕進行檢測定位,并評估5種算法對藏文視頻文字的檢測性能,最后實驗分析得到適合藏文視頻文字檢測的算法。

2 數據集構建

2.1 視頻中藏文字的特點分析

為了有效地檢測視頻中的藏文字,有必要分析其特點。通常情況下,視頻中的藏文字分為兩種,一是視頻拍攝過程中拍攝到的自然場景中的場景文字;另一種是視頻制作時,被人工添加在畫面特定位置的人工文字。對于人工文字進一步可細分為兩種,部分文字顯示設計在與對比度較大的背景之上,被稱為分層人工文字;另一部分文字是直接嵌入畫面中,與背景易混淆,被稱為嵌入人工文字。具有以下特點:

1) 字體多樣性:視頻中使用的不同藏文字體間的風格差異較大,并且藏文字具有特殊性,與漢字相比在形體上從左到右的橫向和上到下的疊加構成了長寬不等的二維平面文字給檢測識別帶來困難,尤其檢測中容易漏檢藏文元音符號,導致改變藏文的本意。

2) 文字不完整:對于位于視頻下方滾動的藏文字幕存在模糊、背景復雜且在特定幀中出現不全等情況,這類文字的檢測識別是一項極大的挑戰。

3) 復雜背景:對于場景文字,由于拍攝角度的變化、物體遮擋被隨機嵌入在復雜的自然背景中,給檢測識別帶來困難。對于人工文字,嵌入人工文字由于藏文字體本身的復雜性,且使用的字體色與背景色相似,導致其檢測識別難度相較于分層人工文字具有較高的挑戰性。

4) 視頻模糊:視頻是經過圖片壓縮處理的,視頻幀文字具有模糊、帶有虛影等增加了檢測識別難度,容易出現漏檢、誤檢。

5) 外界環境的制約:由于視頻拍攝中光照不均勻、視角等因素,直接影響視頻畫面的質量。

本研究以復雜背景中,水平方向的藏文烏金體人工字幕為研究對象,構建了本文實驗所需數據。

2.2 視頻數據預處理

本采用網絡爬蟲技術共收集400多條藏文視頻數據,每段視頻的時長為24分04秒,幀率為24fps,其多樣性體現在背景色、字體位置及大小、高強外界的干擾等方面。然后使用OpenCV-Python讀取視頻數據,在此基礎上保證數據不丟失的情況下,將原始視頻按照每隔10秒提取一幀圖像的方法來對視頻數據進行預處理操作。最后,每段視頻平均得到1 490幀圖像,用于視頻檢測識別模型所需的訓練數據集,其中部分幀圖片如圖1所示。

2.3 數據的標注

本研究使用(VGG Image Annotator,VIA)標注工具對視頻中藏文幀圖像的文本區域進行標注,標注后生成JSON格式的標簽文件,然后將其轉化為和ICDAR2015數據集一致格式的txt文件,具體流程如圖2所示。

3 視頻檢測方法研究

目前,基于分割的方法在場景文本檢測中能夠更準確地描述任意形狀的場景文本。因此,本文采用以下幾種基于分割的方法用于藏文視頻中文字的檢測定位。

3.1 DBNet算法概述

本研究采用的DBNet[10]網絡結構如圖3所示,在檢測階段將藏文視頻幀圖像輸入網絡后,首先通過特征提取網絡ResNet-18提取圖像中藏文的特征,并進行上采樣融合,然后通過concat操作后生成圖3中的特征圖F,采用F分別預測出概率圖P和閾值圖T,最后由可微分的二值化算法計算出近似二值圖[B],最終得到視頻中藏文的檢測結果。

視頻中藏文檢測階段的可微分的二值化過程如式(1)所示,其中,[B]表示近似的二值圖,([i,j])表示概率圖中的坐標,[P]和[T]分別表示網絡學習的概率圖、閾值圖,[k]是一個因子。式(1)之所以能提高網絡整體性能,可從它的梯度反向傳播來解釋,定義一個[f(x)]如式(2)所示,其中[x=Pi,j-Ti,j],在使用交叉熵損失函數,將正樣本的損失記為[l+],如式(3)所示,負樣本的損失記為[l-],如式(4)所示。正、負樣本對輸入的[x]進行鏈式求導,得出相應的偏導數,分別為如式(5)、(6)所示。由此從微分式中可以看出,[k]是梯度增益因子,梯度對于錯誤預測的增益幅度很大,進而既促進在反向傳播中對參數的更新,又有利于精準預測視頻中藏文邊緣的特征。

[Bi,j =11+e-kPi,j-Ti,j] (1)

[fx=11+e-kx] (2)

[l+=-log11+e-kx] (3)

[l-=-log1-11+e-kx] (4)

[?l+?x=-kfxe-kx] (5)

[?l-?x=kfx ] (6)

網絡訓練的損失函數[L]如式(7)所示,是概率圖的損失[Ls]、二值圖的損失[Lb]、閾值圖的損失[Lt],其中[α]和[β]值分別設置為1.0和10。式(7)中的[Ls]和[Lb]使用二值交叉熵損失,如式(8)所示,其中[Sl]是經過采樣的數據集,其正樣和負樣本的比值為1:3。[Lt]采用的是計算[Gd]內預測與標簽之間[L1]的距離之和,如式(9)所示,其中,[Rd]為標注框經過偏移量[D]擴充后得到的框[Gd]里的一組像素的索引。

[L=Ls+α×Lb+β×Lt] (7)

[Ls=Lb=i∈Slyilogxi+1-yilog1-xi ] (8)

[Lt=i∈Rdy*i-x*i ] (9)

3.2 DBNet++算法概述

DBNet++[11]是基于DBNet的改進算法,該算法的核心是提出了自適應尺度融合模塊(Adaptive Scale Fusion,ASF),如圖4所示。首先,金字塔特征圖上采樣到相同大小,然后輸入ASF模塊中,對經過尺度縮放的特征圖進行concat,再經過3×3卷積,獲得中間特征S,并對其采用空間注意力機制(attention)。最后,注意力權重[A∈RN×H×W]分別與輸入的特征圖對應相乘后再concat得到ASF的輸出,很好地考慮了不同尺度特征圖的重要性,使得DBNet++模型具有更強的尺度魯棒能力,尤其是對本文大尺度的視頻文本目標更魯棒,但藏文元音符號出現較嚴重的漏檢。

3.3 PSENet算法概述

PSENet[12]網絡的整體框架如圖5所示,該算法首先采用主干網絡ResNet50[13]提取n個通道特征圖,其次,使用函數來將低級紋理特征和高級語義特征相融合,并映射到F,此時促進了不同尺度的內核生產。然后產生了n個不同尺度的分割結果,其中最小尺度的分割結果是整個文本實例的中心位置,而最大尺度的分割結果是文本實例的完整形狀。最后使用漸進式擴展算法(PSENet),首先將最小內核的分割結果通過連通分析形成不同連通域,進而確定各種實例的中心位置,其次,通過廣度優先算法合并相鄰像素逐漸擴展到最大尺度分割結果,對于合并間存在沖突像素,采用先到先得的策略,從而獲得最終的藏文視頻檢測結果。

3.4 EAST算法概述

EAST[13]網絡結構如圖6所示,該算法只包含兩個階段,分別是全卷積網絡(Fully Convolutional Networks,FCN)和非極大值抑制(Non-Maximum Suppression,NMS)。首先將視頻幀圖像送到FCN網絡結構中,由PVANet提取輸入圖像特征,并生成單通道像素級的文本分數特征圖(score map)和多通道幾何圖形特征圖(geometry map),再使用上采樣、張量連接、卷積操作進行特征合并,之后輸出部分直接產生文本框預測。文本區域采用了兩種幾何形狀:旋轉框(RBOX)和水平(QUAD),分別設計了不同的損失函數。然后采用閾值過濾幾何,其中評分超過預定閾值的幾何形狀被認為有效,并將生成的文本預測框經過非極大值抑制(NMS)篩選,產生最終結果。

本文在視頻藏文檢測階段采用EAST網絡原始的損失函數,如式(10)所示,其中,[Ls]表示分類損失、[Lg]表示幾何損失、[λg]表示兩個損失的重要性,在本文實驗中將其設置為1.0。[Ls]表達式如式(11)所示,其中[Y]是score map的預測值,[Y*]是Ground Truth真實標簽,參數[β]是每一張幀圖像的正樣本和負樣本的平衡因子,其公式如式(12)所示。

[L=Ls+λgLg] (10)

[Ls=balanced-xentY,Y*? ? =-βY*logY-1-β1-Y*log(1-Y)] (11)

[β=1-y*∈Y*y*Y*] (12)

由于文本在視頻場景中的尺度變化較大,因此本文在RBOX回歸的AABB部分采用原網絡中使用的[IoU]損失,其[Lg]表達式如式(13)所示,其中,[LAABB]和旋轉角度損失計算公式分別如式(14)、(15)所示。當幾何圖是QUAD時,對其采用尺度歸一化的[smoothedL1]損失函數,其損失值如式(16)所示,其中[NQ*]是四邊形的短邊長度,其表達式如式(17)所示,從而保證文本尺度變化的穩定性。

[Lg=LAABB+λθLθ] (13)

[LAABB=-logIoUR,R*=-logR∩R*R∪R*] (14)

[Lθθ,θ*=1-cosθ-θ* ] (15)

[Lg=LQUADQ,Q*? ? ?=minQ∈PQ*ci∈CQ,ci∈CQsmoothedL1ci-ci8×NQ*] (16)

[NQ*=mini=1,2,3,4DPi,Pi mod 4+1] (17)

3.5 FCENet算法概述

FCENet[14]算法提出了傅里葉輪廓嵌入(Fourier Contour Embedding,FCE)方法來將任意形狀的文本輪廓表示為緊湊的傅里葉特征向量。該網絡結構由可變形卷積的殘差網絡模型作為特征提取層(backbone- ResNet50_DCN)[15]、特征金字塔網絡FPN[16]作為neck層來提取多尺度特征、FCE作為head層。其中,head層分為分類分支和回歸分支。分類分支用來預測文本區域和文本中心區域?;貧w分支用來預測文本的傅里葉特征向量,并將其輸入反向傅里葉變換進行文本輪廓點序列的重建,最后通過非最大值抑制(NMS)獲得最終的視頻文本檢測。

4 實驗結果與分析

4.1 實驗環境

本文檢測網絡訓練的硬件環境為CPU: Intel?CoreTMi9-9900K、GPU:NVIDIA GeForce RTX 2080Ti,內存:24GB,軟件環境為Ubuntu 20.04+cuda11.8+Python3.8+PyTorch1.12.1。

4.2 評價指標

為了評估不同算法的性能,本文采用準確率(Precision)、召回率(Recall)、F1值(H-mean)、幀速率(FPS)4個指標對視頻中藏文幀圖像的文本區域檢測結果進行評價。

4.3 視頻中藏文文本的檢測

本文視頻藏文文本檢測實驗中,首先對數據預處理得到的2 752幀圖像進行去重操作,共得到878幀實驗所需數據,并將數據按照8∶1∶1隨機分為訓練集、驗證集、測試集。在此基礎上對比基于分割的DBNet、DBNet++、EAST、FCENet文字檢測算法與本文所采用的漸進式擴展算法PSENet在視頻中藏文的檢測效果。其中檢測效果如圖7所示,圖(a)為DBNet檢測效果,圖(b)為EAST檢測效果,圖(c)為FCENet檢測效果,圖(d)為DBNet++檢測效果,圖(e)為PSENet檢測效果。在測試集上的結果如表1所示。

從圖7和表1中可以看出,DBNet算法在單一背景下檢測效果較好,但對于復雜花色的背景下檢測效果不佳,而DBNet++網絡在復雜背景下能檢測定位到文本區域的4個坐標點,故所檢測的準確率也高,但整體相比DBNet嚴重出現了藏文元音符號的漏檢,進而易改變藏文本意。EAST算法在檢測視頻中相對較長文本行時存在較嚴重的漏檢,且會生成多余的檢測框并重疊在一起,不適合用于檢測視頻場景的文字。FCENet檢測算法能夠有效檢測視頻中較小尺度的字幕,但由于視頻文字的位置和大小不固定,對于檢測較大尺度的文字易出現漏檢。本文采用的漸進式擴展算法PSENet既有效解決對于視頻中復雜背景、大小不固定的藏文字幕檢測,又可有效檢測藏文元音符號,在準確率、召回率、F1值上都達到99%以上。

5 總結與展望

為研究藏語視頻中出現的文字信息,對其檢測定位是前提任務。本文通過分析視頻本身的特點及檢測難點,采用5種基于分割的文字檢測算法用于藏文視頻字幕的檢測。在人工收集的藏文視頻數據集上進行初步實驗,實驗結果表明,基于分割的漸進式擴展算法PSENet在藏文視頻文字檢測中具有較好的效果,其準確率、召回率、F1值都達到99%以上,證明該方法在藏文視頻文字檢測中具有可行性。同時,通過分析實驗結果在后續研究中需要進一步開展不同位置、多字體以及復雜背景下藏文視頻場景文字的研究。

參考文獻:

[1] 趙星馳.基于深度學習的視頻文字檢測技術[D].北京:北京郵電大學,2019.

[2] 張慧宇.廣電視頻文字檢測與識別的研究[D].鄭州:鄭州大學,2020.

[3] 常為弘.視頻中的文字檢測識別算法的研究與實現[D].成都:電子科技大學,2021.

[4] 王夢錦.基于深度學習的藏文古籍文獻文本檢測研究[D].拉薩:西藏大學,2020.

[5] 芷香香,高定國.手寫多字體藏文古籍文本檢測方法研究[J].高原科學研究,2022,6(2):89-101.

[6] 洪松,高定國,三排才讓,等.自然場景下烏金體藏文的檢測與識別[J].計算機系統應用,2021,30(12):332-338.

[7] 仁青東主.基于深度學習的藏文古籍木刻本文字識別研究[D].拉薩:西藏大學,2021.

[8] 侯閆,高定國,高紅梅.烏金印刷多字體藏文的文本檢測與識別[J].計算機工程與設計,2023,44(4):1058-1065.

[9] 李金成.藏漢雙語自然場景文字檢測與識別系統[D].蘭州:西北民族大學,2021.

[10] LIAO M H,WAN Z Y,YAO C,et al.Real-time scene text detection with differentiable binarization[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):11474-11481.

[11] LIAO M H,ZOU Z S,WAN Z Y,et al.Real-time scene text detection with differentiable binarization and adaptive scale fusion[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(1):919-931.

[12] WANG W H,XIE E Z,LI X,et al.Shape robust text detection with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:9328-9337.

[13] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:770-778.

[14] ZHOU X Y,YAO C,WEN H,et al.EAST:an efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:2642-2651.

[15] ZHU Y Q,CHEN J Y,LIANG L Y,et al.Fourier contour embedding for arbitrary-shaped text detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.IEEE,2021:3122-3130.

[16] ZHU X Z,HU H,LIN S,et al.Deformable ConvNets V2:more deformable,better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:9300-9308.

[17] LIN T Y,DOLLáR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:936-944.

【通聯編輯:唐一東】

猜你喜歡
視頻檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
計算機基礎課MOOC視頻的制作方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合