?

基于多重視覺注意力的唇語識別

2024-03-02 07:06謝胤岑曹明偉
模式識別與人工智能 2024年1期
關鍵詞:唇語解碼器集上

謝胤岑 薛 峰 曹明偉

唇語識別是從視頻里說話人輕微的嘴唇運動中解碼出所說的內容(文本)的一種技術,在公共安全等領域具有廣泛的應用價值.

現有的唇語識別方法可分為兩類:單詞級別唇語識別方法和句子級別唇語識別方法.單詞級別唇語識別方法的目標是識別視頻在詞庫中對應的單詞類別,相當于視頻分類任務.句子級別唇語識別方法的目標是將視頻翻譯成一句完整的話.本文研究內容屬于句子級別的唇語識別,并且基于深度學習方法實現.

現有的基于深度學習的唇語識別方法一般由兩部分組成:視覺編碼前端和文本解碼后端.視覺編碼前端用于提取唇語的視覺特征,主流的方法是采用卷積神經網絡(Convolutional Neural Network, CNN)進行特征提取.一些研究[1-4]使用2D CNN,如VGG(Visual Geometry Group)[5]或ResNet-18(Residual Net-work)[6],從視頻中提取空間維度的特征.也有研究[7-9]使用3D CNN對視頻的整體進行運動建模[10].此外,還有少數工作[11-12]采用2D CNN和3D CNN結合的策略.

對于文本解碼后端,以句子級別唇讀識別方法為例,一些研究[1-2,4]采用基于循環神經網絡(Recu-rrent Neural Network, RNN)的序列到序列模型(Se-quence to Sequence, Seq2Seq)[13]實現視頻特征序列到文本序列的轉換,也有研究[11,14]采用基于多頭注意力的Transformer[15]架構對文本進行解碼,并行處理訓練數據.

根據輸入數據的類別,唇語識別還可劃分為視覺語音識別(Visual Speech Recognition, VSR)和視聽語音識別(Audio-Visual Speech Recognition, AV-SR).VSR的輸入數據是視頻數據,AVSR的輸入數據既包含視頻數據又包含音頻信息.

Assael等[7]提出Bidirectional LipNet,結合3D CNN、Bi-GRU(Bidirectional Gated Recurrent Unit)和CTC(Connectionist Temporal Classification Loss)[16],結構簡單,在GRID數據集[17]上準確率較高,但在CMLR數據集[2]上無法收斂.Zhang等[3]提出LipCH-Net,基于CTC實現從視頻到拼音的轉換,基于RNN transducer[18]實現從拼音到漢字的轉換,兩個階段在訓練時可同時優化.Zhao等[2]提出CSSMCM(Cascade Sequence-to-Sequence Model for Chinese Mandarin),預測拼音和音調的中間狀態,大幅增加中文預測的準確率.由于LipCH-Net和CSSMCM均使用中文的語言特性,僅適用于中文數據集,無法泛化到其它語言的數據集.

Xu等[8]提出LCANet(Cascade Attention-CTC Deep Learning Model),在LipNet前端引入高速公路網絡[19],增強模型的特征選擇能力.Xue等[9]提出LCSNet(End-to-End Deep Neural Network-Based Liprea-ding Model),在LipNet上加入選擇性內核網絡[20],彌補高速公路網絡的不足.Chen等[21]設計DualLip,實現唇部運動視頻和對應文本的相互生成.

Chung等[1]基于音頻和視頻模態構建WLAS(Watch, Listen, Attend and Spell),但未考慮視頻和音頻對齊的問題.Afouras等[11]基于交叉熵損失函數和CTC損失函數,設計基于Transformer的深度AVSR,并證實唇語識別在嘈雜環境下能對語音識別起到輔助作用.Petridis等[12]采用混合CTC/注意力模型,融合音頻和視頻兩種模態,并對比2種不同的模態融合策略(早期融合與晚期融合)對性能的影響.Zhao等[4]提出LIBS(Lip by Speech),使用在大規模音頻語料庫上預訓練的語音識別模型指導唇語識別的訓練.Huang等[22]提出CALLip,通過對比學習[23]解決出現近音詞時唇形相近的問題.Ma等[14]基于Conformer模塊,提出基于視頻和音頻雙模態訓練的AVSR,在CMLR數據集上性能較優.

現有的唇語識別方法盡管在一些開源數據集上取得不錯的效果,但仍存在如下問題:視覺編碼前端捕獲的低級特征往往混雜一些與唇讀任務無關的信息,降低唇語識別的精度.這些與任務無關的信息存在于視覺特征的不同維度中.

1)在空間維度上,單幀圖像內并非在所有區域都能提供有用的視覺特征.對于唇語識別任務而言,唇部區域的像素更值得關注.即使在處理視頻數據時,針對每幀的唇部區域進行裁剪,圖像中依然存在一些與唇部無關的像素,這些非唇部信息會影響唇語識別中解碼器的性能.

2)在時間維度上,一個視頻數據中并非所有的視頻幀都能提供較關鍵的信息.例如:在一些視頻的開始或結束位置,說話人并沒有發言,唇部沒有發生運動,因此對唇語的運動建模作用并不明顯.

3)在通道維度上,并非所有的通道都能提供有價值的信息.一般來說,隨著訓練模型過程中參數的更新,視覺特征的多數通道都能捕獲唇部區域的關鍵細節,但也會有少數通道提取的輪廓信息較模糊,影響唇語識別的準確性.

為了解決上述問題,本文提出基于多重視覺注意力的唇語識別方法(Lipreading Based on Multiple Visual Attention, LipMVA).首先,受文獻[24]、文獻[25]中相關工作的啟發,設計通道注意力(Channel Attention, CA)模塊,為每個通道分配權重,自適應校準通道級特征.然后,設計聯合時空注意力(Joint Spatial-Temporal Attention, JSTA)模塊,用于抑制視頻中一些不重要的像素和視頻幀[26-27].此外,還設計分散時空注意力(Separate Spatial-Temporal Atten-tion, SSTA)模塊,與JSTA模塊作用類似,但是實現的粒度不同.兩者最主要的區別在于:JSTA模塊同時利用時空的3個維度T、H、W直接計算時空注意力的整體權重,而SSTA模塊將時空維度進行拆分,分別計算時間權重和空間權重.因此,在一定程度上,SSTA模塊能比JSTA模塊實現更細的優化粒度.通過兩種作用相同但粒度不同的組件,LipMVA可在時空維度上先通過聯合注意力對視覺特征進行粗粒度的提純,再通過分散注意力進行細粒度的精煉,從而實現由淺入深的優化效果.此外,這3種注意力模塊僅需要少量的卷積操作即可實現,具有較高的計算效率.在CMLR[2]、GRID[17]數據集上的實驗驗證LipMVA的有效性.

1 基于多重視覺注意力的唇語識別

本文提出基于多重視覺注意力的唇語識別方法(LipMVA),整體架構如圖1所示.

LipMVA由3個模塊組成.第1個模塊是一個三層的3D CNN,用于提取原始的視覺特征,該部分的設計與LipNet[7]的視覺主干網絡保持一致,每層CNN的后面都有一個最大池化層和批量歸一化層.

第2個模塊是本文設計的多重注意力模塊,依次為CA模塊、JSTA模塊、SSTA模塊,主要用于抑制模型中的特征冗余信息,并對關鍵信息進行增強.

圖1 LipMVA的整體架構圖

CA模塊是將文獻[25]中的通道注意力擴展到三維,并采用3D CNN取代全連接層進行通道的壓縮和恢復操作.該模塊主要能對原始的唇語視覺特征進行通道篩選,對特征輪廓模糊的通道進行抑制,對特征清晰的通道進行增強.

JSTA模塊是在CA模塊的基礎上再次進行改造,通過一層3D CNN對視覺特征的時空維度分配一個整體的權重,從而實現對時空維度特征的粗粒度優化.

SSTA模塊可進一步彌補JSTA模塊的不足,能先將視覺特征轉換為時間維度特征和空間維度特征,再分別使用1D CNN和2D CNN分配時間權重和空間權重,即對關鍵的幀或像素進行增強,并對不重要的幀和像素進行削弱,從而實現對時空維度特征的細粒度優化.

第3個模塊是結合編碼器-解碼器注意力[28]的Seq2Seq網絡,作為模型的后端,負責將過濾后的視覺特征轉譯為目標語言的句子序列.

下面分別介紹3種視覺注意力模塊和Seq2Seq后端解碼的詳細信息.此外,為了便于闡述LipMVA,記B×C×T×H×W表示輸入到模型的原始視頻維度以及輸入到所有注意力模塊的特征維度,其中,B表示網絡訓練時批處理大小,T表示視頻幀長度,C表示通道數,H表示幀高度,W表示幀寬度.

1.1 通道注意力模塊

通道注意力(CA)模塊能為特征圖的所有通道自適應分配權重.例如:對唇部輪廓清晰的通道分配較高的關注度,以增強其特征的表達;對少數輪廓模糊的通道分配較低的權重,以削弱這些通道的影響.為了實現這一點,需要對時空維度T、H、W進行壓縮.如圖1的CA模塊所示,給定原始視覺特征X∈RB×C×T×H×W作為輸入,首先通過3D最大池化和平均池化處理,將X的全局時空信息分別壓縮到兩個通道描述符Fmax和Favg中:

然后,使用兩層卷積核大小均為1×1×1的3D CNN分別對兩個通道描述符在通道維度上進行壓縮和恢復.在這一過程中,Fmax和Favg的通道數先被第1層卷積壓縮到C/r(r表示通道的縮放比例,此處設置為16),再由第2層恢復到C,從而實現通道層面的自適應校準.隨后,對兩個描述符進行加法運算,并通過Sigmoid函數激活,得到通道注意力的權重AC∈RB×C×1×1×1.最終將權重AC與X相乘,實現通道級別的特征過濾.CA模塊的輸出結果為:

YCA=AC?X.

1.2 聯合時空注意力模塊

聯合時空注意力(JSTA)模塊通過自適應調整特征圖在時空維度T、H、W下的整體權重,既可增強對唇部像素以及說話幀的權重分配,又可抑制非唇部像素和未說話幀的影響.為了實現這一目標,需要對通道維度C進行壓縮.如圖1的JSTA模塊所示,對于輸入的視覺特征X∈RB×C×T×H×W,首先使用基于通道維度的最大池化和平均池化方法,將視覺特征X的全局通道信息分別壓縮到2個時空描述符Fmax和Favg中:

然后,將2個時空描述符Fmax和Favg沿著通道維度拼接,使通道數變為2.再通過一層卷積核大小為1×1×1的3D CNN,將通道數壓縮為1.隨后經過Sigmoid函數的激活,得到視覺特征在時空維度上的聯合注意力權重AJ∈RB×1×T×H×W.最終將該權重AJ與X相乘,實現對時空級別特征的初步過濾:

YJSTA=AJ?X.

1.3 分散時空注意力模塊

分散時空注意力(SSTA)模塊作為對JSTA模塊的補充,可進一步增強模型對時空噪聲的過濾能力.SSTA模塊能對視頻特征先進行維度變換,再分別從時間維度和空間維度進行相應的權重分配,具有多分支的可控粒度.

如圖1所示,SSTA模塊主要包括上下兩個分支,上方的分支專注于計算空間注意力的權重,而下方的分支用于分配時間注意力的權重.兩個分支均由N個子分支組成,其中,上分支包含N個卷積核大小為3×3的2D CNN,下分支包含N個卷積核大小為3的1D CNN.超參數N表示時間分支和空間分支中分別實施注意力操作的次數.圖1給出N=3的情況,可通過控制N的大小調節SSTA模塊的粒度,達到最優效果.

SSTA模塊具體的計算流程如下.給定輸入的視覺特征X∈RB×C×T×H×W,首先將其分別轉置為空間級別的特征XS以及時間級別的特征XT:

X→XS∶RB×C×T×H×W→RBT×C×H×W,
X→XT∶RB×C×T×H×W→RB×CHW×T.

從而實現相對于JSTA模塊更深度的時空特征過濾.

1.4 編碼器-解碼器注意力

如圖1所示,LipMVA的后端采用基于編碼器-解碼器注意力的Seq2Seq架構.設輸入視頻的幀長為T,預測序列的長度為L:圖中的[x1,x2,…,xT]作為視頻解碼器的輸入,表示視頻的每幀對應的視覺特征;[y1,y2,…,yL]作為文本解碼器的輸出,表示預測的文本序列.

視頻編碼器GRUe為一個雙層的雙向GRU,用于建立嘴唇運動的長期時序關系.在第i個時間步下,編碼器的隱藏層向量為:

文本解碼器GRUd為一個雙層的單向GRU,用于在每次循環時預測一個中文字符或英文單詞.在第i個時間步下,解碼器的隱藏層向量為:

其中,Emb為詞嵌入矩陣,可將文本字符映射到向量空間.

其中Attn(·)表示編碼器-解碼器注意力.

最終,將上下文向量和當前解碼器的隱藏層向量拼接,經過線性變換后,得到當前預測的字符概率:

至此,整個模型的損失函數定義如下:

2 實驗及結果分析

2.1 實驗數據集與評價指標

本文在CMLR[2]、GRID[17]數據集上進行實驗.

CMLR(https://www.vipazoo.cn/CMLR.html)是目前最大的開源中文句子級別唇語識別數據集,采自央視新聞聯播節目,包含102 072條視頻,涉及11位說話人、3 517個漢字,每個視頻最長223幀,每個句子最長29個漢字,不包含任何英文字母、數字和標點符號.

GRID(https://spandh.dcs.shef.ac.uk/gridcor

pus/)是一個被廣泛使用的英語句子級別唇讀語料庫,共包含32 823條視頻,涉及34位說話人.每個視頻長度均為75幀,每個句子長度均為6個單詞,每個單詞都是一些特定的詞匯.由于句子長度固定且詞典規模較小,大多數唇語識別方法在GRID數據集上可獲得比在CMLR數據集上更好的性能.

錯誤率是句子級別唇語識別常用的評價指標,值越小表明性能越優.CMLR數據集采用字符錯誤率(Character Error Rate, CER),GRID數據集采用單詞錯誤率(Word Error Rate, WER),兩者計算方法相同:

其中,N表示標簽語句的長度,S+D+I表示預測語句到標簽語句的字符串編輯距離,即預測語句變換為標簽語句所需的最少操作次數,S表示替換操作次數,D表示刪除操作次數,I表示刪除操作次數.

2.2 實驗細節設置

對于視頻的每幀,首先,使用Dlib人臉檢測器檢測面部的68個特征點.然后,參照唇部輪廓的20個特征點的位置,從唇部及其周邊區域裁剪80×160的子圖像.最后,使用仿射變換將每幀子圖像的分辨率調整為64×128,作為輸入數據.

LipMVA各層參數詳見表1.在CMLR數據集上,訓練輪次設置為60,批處理大小設置為8,初始學習率為0.000 2,SSTA模塊中參數N設置為3.在GRID數據集上,訓練輪次設置為30,批處理大小設置為16,初始學習率為0.000 3,SSTA模塊中的參數N設置為4.

表1 LipMVA各層的參數設置

訓練過程在單張NVIDIA RTX 3070上完成,并使用Adam[29]優化器進行優化.每當錯誤率在連續2個輪次內沒有下降時,將學習率減少一半.在訓練過程中,使用計劃采樣(Scheduled Sampling)[30],減少解碼器在訓練和預測中的差異,采樣率設置為0.5.在預測時,采用束搜索(Beam Search)[13]進行解碼,擴大搜索范圍,避免貪婪搜索(Greedy Search)帶來的局限性.

2.3 對比實驗

為了評價LipMVA性能,選擇如下一些經典方法進行對比.

1)WLAS[1].基于編碼器-解碼器注意力的Seq-2Seq方法.在WLAS的基礎上去除音頻分支,只保留視頻模態.

2)CSSMCM[2].基于編碼器-解碼器注意力的三重Seq2Seq方法,實現視頻到拼音再到聲調最后到漢字的流程.

3)LipCH-Net[3].端到端的中文句子級唇語方法,訓練流程包括視頻到拼音、拼音到漢字兩個階段.

4)LIBS[4].基于視頻和音頻的知識蒸餾方法,使用預訓練的語音識別方法作為教師模型,指導唇語識別方法的訓練.

5)LipNet[7].端到端的句子級別唇語識別方法,基于3D CNN和CTC實現,結構簡單.

6)LCANet[8].基于高速公路網絡和CTC實現的句子級別唇語方法.

7)LCSNet[9].基于編碼器-解碼器注意力的Seq2Seq方法,使用選擇性內核網絡,增強模型的特征選擇能力.

8)DualLip[21].基于生成對抗網絡的雙向系統,實現唇語視頻和文本的相互生成.

9)CALLip[22].基于視頻和音頻之間的對比學習,解決說話人在說近音詞時唇形相近的問題.

10)LipFormer[31].基于編碼器-解碼器注意力的Seq2Seq方法,使用視頻和特征點兩個模態作為輸入,通過交叉注意力實現跨模態對齊與融合.

各方法在CMLR、GRID數據集上的指標值如表2所示,表中“-”表示該方法在原文獻中沒有實驗結果.由表可知,LipMVA在CMLR測試集上的CER達到21.49%,相比單模態模型CSSMCM,降低10.99%,相比雙模態模型LipFormer,降低6.3%.LipMVA在GRID測試集上的WER達到1.09%,為目前最優結果,相比單模態模型WAS,降低1.91%,相比雙模態模型CALLip,降低1.39%.其主要原因在于,LipMVA的多重視覺注意力模塊能分別在通道、時間、空間維度上增強關鍵信息的表達,抑制冗余信息的干擾,顯著降低錯誤率.

2.4 排列實驗

為了探究注意力模塊的排列方式對方法性能的影響,設計若干組變體實驗,如圖2所示.

(a)變體a

(b)變體b

(c)變體c

(d)變體d

排列實驗只針對3種注意力模塊的擺放進行調整,參數及除3種模塊的其余部分均保持一致.其中,變體d的CA模塊和JSTA模塊需要分別再做一次線性變換才能和SSTA模塊的結果相加.

排列實驗結果如表3所示.由表可知,變體a和變體b的效果優于變體c和變體d,說明3種注意力模塊在串行排列時的性能要優于并行排列時的性能.變體a的性能略優于變體b,說明通道注意力放在前面的效果更優.因此,本文后續的所有實驗都是基于變體a開展的.

表3 在2個數據集上的排列實驗結果

2.5 消融實驗

為了進一步驗證多重視覺注意力模塊的有效性,在CMLR、GRID數據集上設計一系列消融變體實驗,用于評估每個子模塊的性能.消融結果如表4所示,表中以完全移除多重注意力模塊的變體作為基線模型(Baseline),且各變體均沒有使用Beam Search[13]策略.

首先,通過Baseline+CA、Baseline+JSTA、Baseline+SSTA與Baseline的對比可知,3種注意力模塊都可降低錯誤率,SSTA模塊的貢獻程度最大,而CA模塊與JSTA模塊的貢獻程度相近.然后,通過Baseline+JSTA和Baseline+SSTA與Baseline的對比(或Baseline+CA+JSTA、Baseline+CA+SSTA與Base-line+CA的對比)可知,SSTA模塊對性能的提升要比JSTA模塊更明顯,因為SSTA模塊能在時空維度中實現比JSTA模塊更精細的優化粒度.

此外,由LipMVA(w/o Beam Search)可知,當3種注意力模塊同時使用時,性能提升更加顯著,這表明3種模塊可在唇語識別性能上實現互補,即通過對視頻特征的多維度聯合優化,獲得更具有魯棒性的唇部運動特征.同時,由LipMVA可知,Beam Search也能進一步提升方法的性能.

表4 在2個數據集上的消融實驗結果

最后,繪制Baseline、Baseline+CA、Baseline+JSTA、Baseline+SSTA和LipMVA(w/o Beam Search)在2個數據集上訓練時的錯誤率下降曲線,具體如圖3所示.

(a)CMLR

(b)GRID

由圖3可知,3種注意力模塊均能加快模型的收斂,當3種模塊同時使用時,收斂速度也進一步加快.

2.6 超參數實驗

2.6.1 注意力次數N

調節SSTA模塊中注意力次數N的值,可改變分散時空注意力的優化粒度.為了進一步探究N的大小對LipMVA整體性能的影響,在CMLR、GRID數據集上分別設置若干組超參數實驗,并且移除Beam Search解碼策略,實驗結果如表5所示,其中,當N=0時,模型等價于Baseline+CA+JSTA.

由表5可知,在CMLR數據集上,隨著N的增大,錯誤率呈現先下降后上升的趨勢,在N=3時達到最低值24.90%.在GRID數據集上,隨著N的增大,錯誤率呈現出類似的變化趨勢,在N=4時達到最低值1.56%.

表5 SSTA模塊中注意力次數N對錯誤率的影響

產生這種現象的原因可能是:隨著N的增大,SSTA模塊的注意力分支數也隨之增多,篩選的關鍵信息不斷豐富,并在N達到某個值時趨于飽和;一旦N超過極值點,SSTA模塊的某些注意力分支可能會將一些不重要的幀或像素誤認為是關鍵信息,從而使錯誤率回升.

2.6.2 束搜索寬度K

為了探究束搜索寬度K對LipMVA性能的影響,在CMLR、GRID數據集上分別進行一系列實驗,結果如表6所示.其中,當K=1時,方法等價于不使用Beam Search的LipMVA.

由表6可知,隨著K的增大,模型的錯誤率顯著下降.這是因為在Beam Search策略下,解碼器每次預測時會保存前K個概率最高的預測結果,從而擴大搜索的范圍和容錯性.當K增大到一定程度時,搜索空間趨于完善,錯誤率的下降速率會趨于穩定.

表6 束搜索寬度K對錯誤率的影響

2.7 可視化分析

本節從空間、時間、通道三個層面分別進行可視化分析,驗證本文設計的三種注意力機制分別能在不同維度對冗余信息進行抑制,對關鍵信息進行增強.

如圖4所示,本文選取某一個視頻的若干幀,并分別使用表4中的Baseline、Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)繪制視覺特征的顯著性圖[32].圖像的顏色越紅,表明模型對該部位的關注度越高.

由圖4可知,由于Baseline未使用時空注意力,關注的像素難以集中在唇部.相比Baseline,Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和Lip-MVA(w/o Beam Search)更關注唇部的像素.其中,Baseline+SSTA對唇部區域的關注程度要比Baseline+JSTA更集中,說明SSTA模塊對嘴唇區域分配的權重要比JSTA模塊更多.由Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)結果可知,當兩種時空注意力模塊疊加使用時,對唇部像素的關注能得到進一步提升.

(a)原始圖像

(b)Baseline

(c)Baseline+JSTA

(d)Baseline+SSTA

(e)Baseline+JSTA+SSTA

(f)LipMVA(w/o Beam Search)

如圖5所示,選取某一個視頻的若干幀(中間4幀是處于說話狀態的幀),使用表4中的Baseline,Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search),分別繪制時間注意力權重圖.圖像的陰影越深,表示對該幀分配的權重越低.

(a)Baseline

(b)Baseline+JSTA

(c)Baseline+SSTA

(d)Baseline+JSTA+SSTA

(e)LipMVA(w/o Beam Search)

由圖5可知,由于Baseline沒有使用時空注意力,因此不存在時間注意力權重.相比Baseline,Baseline+JSTA、Baseline+SSTA、Baseline+JSTA+SSTA和LipMVA(w/o Beam Search)更關注處于說話狀態的幀.其中,Baseline+SSTA對不重要幀的抑制效果要優于Baseline+JSTA,說明SSTA模塊對說話幀分配的權重之和高于JSTA模塊.由Baseline+JSTA+SSTA、LipMVA(w/o BeamSearch)的結果可知,當兩種時空注意力模塊疊加使用時,對非說話幀的抑制效果能得到進一步增強.

如圖6所示,選取視覺特征圖中某一幀的若干通道,使用Baseline、Baseline+CA、LipMVA(w/o Beam Search),分別繪制通道注意力的權重圖.圖像的陰影越深,表示該通道分配的權重越低.

(a)Baseline

(b)Baseline+CA

(c)LipMVA(w/o Beam Search)

由圖6可知,由于Baseline沒有使用通道注意力,所有通道的權重相同.而在CA模塊的幫助下,Baseline+CA和LipMVA(w/o Beam Search)能更容易判別輪廓信息不明顯的通道,并降低它們的權重,從而更關注表征清晰的通道,提高模型的特征區分能力.

3 結 束 語

為了在唇語識別任務中實現對視覺特征的多維度信息過濾,本文提出基于多重視覺注意力的唇語識別方法(LipMVA),設計通道注意力(CA)模塊和兩種粒度不同的時空注意力模塊(JSTA模塊和SSTA模塊).3種注意力模塊能分別在通道、時間、空間維度上增強關鍵信息的表達,抑制冗余信息的干擾.在兩個句子級別唇語數據集CMLR和GRID上的一系列實驗表明,即使沒有音頻模態的輔助,LipMVA也能有效降低唇語識別的錯誤率.

今后將從實際應用的角度出發,重點研究訓練集和測試集上說話人互不重疊的場景,即在訓練集上出現的說話人不出現在測試集上,進一步提升模型的泛化能力和應用價值.

猜你喜歡
唇語解碼器集上
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
線圣AudioQuest 發布第三代Dragonfly Cobalt藍蜻蜓解碼器
碰撞:“唇語”應對媒體vs志愿者自責哭泣
唇語
親情助力,90后“唇語女博士”名震清華
搜狗推出“唇語識別”技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合