?

中文文本屏幕內容圖像通用視頻編碼標準編碼感知失真研究

2024-04-10 07:49楊楷芳晁學敏蒙琴琴公衍超
西安交通大學學報 2024年4期
關鍵詞:筆畫像素編碼

楊楷芳,晁學敏,蒙琴琴,公衍超

(1. 陜西師范大學計算機科學學院,710119,西安; 2. 現代教學技術教育部重點實驗室,710062,西安; 3. 陜西省教學信息技術工程實驗室,710119,西安; 4. 西安郵電大學通信與信息工程學院,710121,西安)

隨著多媒體技術和云技術的快速發展,屏幕內容圖像被廣泛應用于遠程會議、屏幕共享、在線教育等領域[1]。屏幕內容圖像是由計算機或其他電子設備生成或渲染的圖像,通常包含文字、圖形、圖表、圖標、動畫等內容[2]。在當前公開的屏幕內容圖像數據庫中,文字區域面積占比超過40%[1]。主要包含文字內容的屏幕內容圖像又被稱為文本類屏幕內容圖像(text screen content image, TSCI)。相比于圖形、圖表、圖標、自然場景等內容,文字作為與人類先驗知識密切相關的符號,所攜帶的語義對圖像信息的準確感知有重要影響。文獻[1, 3]研究表明,人眼對文字內容的質量感知更加敏感。所以,TSCI的感知質量顯著影響遠程會議、在線教育等視頻應用中用戶的感知體驗,是決定這些視頻通信系統有效運行的關鍵因素之一。

在遠程會議、在線教育等通信系統中,TSCI需要經過采集、編碼、傳輸、存儲、顯示、分析等操作[4]。編碼的目的是用更少的編碼碼率獲得更高質量的重建TSCI。編碼通常是有損的,這不可避免地在重建TSCI中引入失真,顯著影響TSCI的感知質量。當前一些研究已經關注了TSCI的感知質量。文獻[3]通過分析主觀實驗感知質量分數的統計特征發現文字區域的感知質量與圖像總體感知質量的相關性更強,且文字的清晰度和完整性是人眼評價文本感知質量的重要依據。然后,采用銳度相似度和亮度相似度作為文字清晰度和完整性的測度,并提出有效的TSCI質量評價方法。文獻[5]指出文字區域含有豐富的高對比度邊界信息,這些信息與文本內容的準確表達密切相關,而小波變換可以提供多尺度的邊界信息。因此,文獻[5]將文本圖像從像素域變換到小波域,并基于小波系數的幅值、方差、熵等信息提出了有效的TSCI質量評價方法。與文獻[5]類似,文獻[2, 6-7]也關注到了文字邊界信息對TSCI感知質量的重要影響,并分別提出了適用于編碼失真的質量評價方法。不同的是,文獻[2]提取的是文字邊界對比度、邊界寬度和邊界方向特征,文獻[6]提取的是文字邊界的梯度和寬度特征,而文獻[7]提取的是基于Gabor濾波器的時空Gabor特征張量模型(spatiotemporal Gabor feature tensor-based model,SGFTM)特征。文獻[8]考慮屏幕內容圖像中的文本形狀規則且包含大量細線條和銳利筆畫,因此提出利用像素的標準差分布特征衡量文本區域感知質量。面向由JPEG、JPEG2000標準壓縮的圖像,文獻[9-11]分別提出了有效的質量評價方法。文獻[9]采用梯度信息表征文字區域的結構特征,并進一步根據原始圖像和失真圖像的結構特征相似度得到文字區域的質量。文獻[10]通過分析文本區域和圖像區域標準差分布的差異,提出一種考慮局部標準差分布特征的質量評價方法。文獻[11]則基于人眼對文本區域的先驗知識,提出了考慮文本區域感知重要性的質量評價方法。但是當前研究還存在以下明顯問題:

(1)都是面向的英文TSCI,未考慮中文TSCI。漢字是中華文化傳承和信息傳播的重要載體,是中文文本的符號系統。漢字作為一類由特定筆畫構成的表意文字,也是目前世界上還在使用的人數最多的象形文字,其筆畫特征是影響漢字語義信息表達的重要因素[12-13]。英文作為一類表音文字,其源于拉丁字母,單個字母本身沒有含義,字母的特定組合形成單詞后才能表達語義[14]。因此,中英文文字系統的先天差別決定了中文TSCI和英文TSCI對應的編碼失真特性也會存在明顯不同,需要針對中文TSCI的編碼感知特性進行針對性研究。

(2)都是面向早期的編碼標準,未考慮最新的通用視頻編碼標準(versatile video coding, VVC)標準?,F有研究[2, 3, 5-11]中已經關注的編碼標準包括1992年發布的JPEG標準、2000年發布的JPEG2000標準、2003年發布的H.264/AVC標準、2013年發布的HEVC標準和2017年發布的HEVC-SCC標準。JPEG、JPEG2000、H.264/AVC、HEVC標準在設計時并未考慮屏幕內容圖像的典型特性,所以針對屏幕內容圖像的編碼效率較低[15-16]。為了提升屏幕內容圖像的編碼效率,第一個面向屏幕內容圖像/視頻的編碼標準,即HEVC-SCC標準,應運而生。近幾年隨著屏幕內容視頻朝高清化、多維度等方向快速發展,HEVC-SCC標準的編碼效率已經很難滿足實際需求。相應地,ITU-T和ISO/IEC聯合制定并發布了最新的通用視頻編碼(versatile video coding, VVC)標準[17]。相比于之前的標準,VVC采用了大量先進的編碼技術,例如改進的調色板模式、幀內塊拷貝、塊差分脈沖編碼調制等。新的技術大幅提高了VVC編碼屏幕內容視頻的效率,同時也顯著改變了屏幕內容圖像的編碼失真類型和感知表現。但是,當前針對TSCI的VVC編碼感知失真研究還是空白。

本文首次聚焦中文TSCI的VVC編碼感知失真研究,并首次構建中文文本屏幕內容圖像數據庫(Chinese text screen content image dataset, CT-SCID)。進一步地,結合圖像主觀觀測實驗和VVC混合編碼框架原理,探索分析VVC引起的TSCI感知失真類型及其發展路徑,理論分析及實驗驗證影響感知失真程度的因素,并總結當前代表性的圖像質量評價方法在評價這些感知失真時的性能表現。

1 中文文本屏幕內容圖像數據庫

1.1 數據庫構建

目前,涉及TSCI編碼感知質量評估的數據庫包括SIQAD[3]、SCID[2]、QACS[5]、SCVD[7]、CSCVQ[8]、SCD[18]。涉及的編碼失真包括由JPEG、JPEG2000、H.264/AVC、HEVC和HEVC-SCC標準產生的失真。這些數據庫還存在以下明顯問題:①包含的TSCI絕大多數為英文TSCI,中文TSCI只有極少的幾幅,且未對中文漢字的失真特性做針對性的分析總結;②未考慮VVC標準,數據庫中沒有包含VVC編碼的失真圖像。所以,為了便于后續針對中文TSCI 開展VVC編碼感知失真的研究,需要首先建立中文TSCI數據庫。

在充分調研已有數據庫指標及TSCI典型應用場景的基礎上,本文構建了中文文本屏幕內容圖像數據庫(Chinese text screen content image dataset, CT-SCID),如圖1所示。CT-SCID共包括55幅原始圖像,涉及遠程會議、在線教育、屏幕共享、網頁瀏覽等典型的TSCI應用場景,包含各類辦公軟件、學術文獻、代碼編輯、網頁、新聞、廣告、游戲等豐富內容。數據庫還考慮了文本對比度、字體大小、字體類型等因素。文本對比度的范圍為 [139,5 115],字體大小的范圍為 [327,3 509],范圍能夠覆蓋大部分實際場景。字體大小和文本對比度衡量測度的定義請分別參見第3.1節和第3.2節中相關內容。字體類型考慮了宋體、楷體、微軟雅黑、黑體等主流字體。原始圖像的空間分辨率為1 920×1 080,這是當前TSCI典型應用場景中硬件終端廣泛支持的空間分辨率之一。圖像顏色空間為YCbCr 4∶4∶4,比特深度為8。

圖像作為由像素構成的二維矩陣,其空域細節信息的多少也是衡量圖像特性的一個重要因素[19]。ITU-R BT.1788標準定義了空域感知信息(spatial perceptual information, SI)[19]衡量圖像的空域細節信息。為了適應TSCI紋理邊緣較尖銳,甚至包含單像素邊界的特點,本文計算SI時采用的是Canny算子,且計算的是二值圖像的標準差。SI越大表明圖像包含的空域細節信息越多,圖像越復雜。圖2給出了CT-SCID數據庫中55幅原始圖像的SI??梢钥闯?圖中的數據點可以涵蓋SI較大的范圍,表明原始圖像對應的空域細節信息分布較廣泛,能夠覆蓋大部分實際場景。

圖2 CT-SCID中原始圖像的SIFig.2 SI of the original images in CT-SCID

采用VVC官方推薦的測試模型VTM16.2[20]編碼原始圖像獲得對應的失真圖像。VVC仍然沿用傳統的基于預測變換量化熵編碼的混合編碼框架[17, 21], 但是在每個編碼模塊中都采用了更加先進的技術以提高視頻編碼的效率。例如,在預測模塊中,VVC采用了更靈活的編碼單元塊劃分和更豐富的幀內幀間預測方向。在熵編碼模塊中,VVC采用了更靈活更高效的上下文模型。但是,預測、變換、熵編碼中的技術在原理上都是無損的,而量化才是引起視頻編碼失真的根本原因[4,21]。一方面,VVC采用多對一的量化映射機制,在減少變換系數取值空間的同時會顯著降低視頻細節信息的表達能力,導致視頻清晰度降低,視頻內容變模糊,引入編碼失真。另一方面,考慮人類視覺系統對于視頻細節信息感知不敏感,VVC進一步采用了量化矩陣技術,對高頻系數使用更大的量化步長(quantization step, QS),這易導致高頻信息的丟失,從而使得視頻內容進一步變模糊,引入編碼失真。綜上可知,相比于其他編碼策略或技術,量化中的QS是影響編碼失真的最重要因素[21]。當前代表性的屏幕內容圖像數據庫[3, 5, 8, 18]也都是考慮調整QS來獲得不同編碼失真程度的圖像。本文也是沿用這一思路。

在實際應用中,VTM是通過選擇量化參數(quantization parameter, QP)來控制QS的取值。VVC規定的QP取值范圍為-6(η-8)~63,其中η表示比特深度。韋伯-費希納定理[22]表明,人眼不可能感知兩幅圖像間較小的質量差別,只有當質量差別超過一定閾值時人眼才能感知得到。當圖像采用較小QP編碼時,重建圖像與原始圖像之間的差別較小,人眼很難感知得到。所以,較小QP編碼產生的重建圖像感知質量都處于與原始圖像感知質量一樣的最好等級。當圖像采用較大QP編碼時,重建圖像已經非常模糊,很難提取有用信息,這時不同QP對應的重建圖像對應的感知質量等級是一樣的,都處于最差等級。

基于以上人眼感知的先驗知識可知,數據庫中沒有必要包含較小或較大QP對應的失真圖像,因為它們的感知失真等級是確定的,且增加失真圖像也會顯著提高后續圖像主觀觀測實驗的成本。所以,本文考慮的QP范圍為 32~60,采用VTM16.2編碼原始圖像獲得每一個QP對應的失真圖像。其他主要編碼參數使用配置文件encoder_intra_vtm.cfg中的默認配置,檔次為main_10_444_still picture。最終得到的CT-SCID共包含1 595幅失真圖像。

1.2 失真圖像主觀觀測實驗

本節設計失真圖像主觀觀測實驗以獲得失真圖像的感知質量等級。主觀觀測實驗涉及的關鍵因素和流程均嚴格按照ITU-R BT.500-13標準[23]中的規定執行。具體地,實驗共包括30名測試者,其中男性17名、女性13名,年齡在20~40歲之間。所有測試者都沒有圖像質量評價領域的研究經驗,且經過檢測均具有正常的視力。采用side-by-side方式,將原始圖像和對應的失真圖像同時顯示給測試者,測試者依據平均意見分數(mean opinion score,MOS)五級量表給對應的失真圖像質量評級。MOS五級量表是ITU-R BT.500-13標準推薦的且被廣泛使用的圖像感知質量評級測度,其將圖像的感知質量劃分為5個等級,并用1~5分表示,分數越高表示圖像的感知質量越好。在實驗開始前,會首先向測試者說明實驗流程和注意事項。在實驗過程中,當測試者持續觀測時間達到20 min時,強制讓測試者休息5 min,以避免視覺疲勞。

通過以上過程可獲得每一位測試者給每一幅失真圖像打的感知質量分數。但是,受個體差異性等因素的影響,這些數據中可能會存在一些異常值。本文應用3σ準則[24]篩選并剔除異常值。n幅失真圖像感知質量分數的均值μn和標準差σn為

(1)

(2)

式中:Sm,n表示第m位測試者對第n幅失真圖像打的感知質量分數;α表示測試者數量。當某位測試者對應的感知質量分數處于(μn-3σn,μn+3σn)之外時,則認為其為異常點并將剔除。然后,計算剩余測試者對應的感知質量分數均值,此均值即為第n幅失真圖像對應的MOS。

圖3為CT-SCID中所有失真圖像對應的MOS??梢钥闯?CT-SCID數據庫中失真圖像的感知質量等級范圍足夠廣,可用于后續中文TSCI的感知失真研究。

圖3 CT-SCID中失真圖像的MOS分布Fig.3 MOS distribution of distorted images in CT-SCID

2 中文TSCI VVC編碼感知失真類型

漢字作為由特定類型筆畫構成的象形文字,其筆畫信息對漢字語義的感知具有決定性作用。筆畫信息屬于圖像的高頻信息。包含VVC在內的傳統基于混合編碼框架的編碼技術考慮人眼對自然圖像高頻信息不敏感,通常會使用壓縮高頻信息的方式實現數據壓縮。但是,漢字筆畫信息的變化卻會對TSCI感知質量產生重要影響。本文研究發現,中文TSCI在經過VVC編碼時,隨著QP的增加,其對應重建圖像中漢字的筆畫會發生多種類型變化,對應產生多種類型的感知失真。本節將說明這些感知失真類型及其發展路徑。

2.1 感知失真類型分析

2.1.1 筆畫模糊

模糊是圖像編碼導致的一種常見失真。自然圖像和屏幕內容圖像經過有損編碼后都會出現模糊,但是具體的失真感知形式會有不同。圖4以“WebPage02”圖像中的區域為例,展示漢字對應的筆畫模糊失真。圖4(a)、(b)分別為原始圖像和QP為49時編碼得到的失真圖像,并將其中的“雙”字放大展示??梢钥闯?原始圖像中的“雙”字筆畫邊界比較清晰,易識別其表示的語義,而失真圖像中的“雙”字筆畫邊界已經不分明,筆畫相對模糊,出現了模糊失真。筆畫模糊會增加漢字語義識別的難度。

(a)原始圖像

2.1.2 筆畫丟失

除了筆畫模糊外,TSCI中的漢字還會出現筆畫丟失失真。圖5以“PDF01”圖像中的區域為例,展示了漢字對應的筆畫丟失失真。圖5(a)、(b)分別為原始圖像和QP為46時編碼得到的失真圖像,并將其中的“借”字放大展示。易看出,原始圖像中的“借”字筆畫清晰且筆畫結構完整,而失真圖像中的“借”字雖然筆畫較清晰,但第9、10筆順對應的兩個“橫”缺失了。筆畫丟失顯著影響原漢字語義的準確感知,影響中文TSCI的感知質量。

(a)原始圖像

2.1.3 筆畫增加

與筆畫丟失對應,TSCI中的漢字也會出現筆畫增加失真。圖6以“PPT01”圖像中的區域為例,展示了漢字對應的筆畫增加失真。圖6(a)、(b)分別為原始圖像和QP為48時編碼得到的失真圖像,并將其中的“情”字放大展示。易看出原始圖像中的“情”字筆畫清晰且筆畫結構完整,而失真圖像中的“情”字雖然筆畫清晰,但其第9筆順 “橫折鉤”變為了“橫折橫”,導致“情”字的下半部分“月”變成了“目”。筆畫增加也影響原漢字語義的準確感知,影響中文TSCI的感知質量。

(a)原始圖像

2.1.4 字符轉換

前面提到的失真類型,即筆畫模糊、筆畫丟失、筆畫增加,通常會影響漢字語義的識別難度,其導致的最嚴重情況是人眼難以識別漢字。但是,本節涉及的第4種失真,即字符轉換,則會導致漢字語義的錯誤識別,對中文TSCI的感知質量產生嚴重影響。

當原始TSCI中的漢字經過編碼后,漢字的筆畫發生了變化,使得變化后的字符轉換為了與原始漢字不同的其他漢字,本文將此種特殊失真類型定義為字符轉換。圖7以“PDF13”圖像中的區域為例,展示了字符轉換失真。圖7(a)、(b)分別為原始圖像和QP為45時編碼得到的失真圖像,并將相應的漢字放大展示。原始圖像中的“間”字筆畫清晰且筆畫結構完整,但其在失真圖像中則轉換為了“問”字,且“問”字的筆畫也相對清晰??梢哉J為,字符轉換是漢字筆畫在增加或減少過程中出現的一種特殊情況,即增加或減少筆畫后的符號與漢字字庫中除原始漢字之外的某一個漢字的筆畫結構趨近相同。區別于前3種失真類型,字符轉換傳遞給人眼虛假語義信息,欺騙人眼對于漢字語義的感知,嚴重影響中文TSCI的感知質量。

(a)原始圖像

2.2 感知失真類型變化

原始中文TSCI在使用VTM編碼時,隨著QP增大,失真圖像中漢字的筆畫出現各種變化,從而產生前述的各種失真類型。為了便于分析這些失真類型的發展路徑,將原始圖像中的漢字定義為原始漢字字符(original Chinese character,OCC),將其對應在失真圖像中的漢字定義為失真漢字字符(distorted Chinese character,DCC)。表1直觀地展示了中文TSCI VVC編碼感知失真類型隨QP增大的發展路徑。圖8給出了兩個漢字形象的代表性示例。下面結合表1、圖8進行說明。

表1 感知失真類型隨QP增大的發展路徑Table 1 Perceptual distortion type development path with increasing QP

圖8 “WebPage03”圖像中的“前”和“這”感知失真類型發展路徑Fig.8 Perceptual distortion types development path on “前” and “這” in “WebPage03” image

第1階段:筆畫感知無變化。當QP較小時,圖像高頻信息損失較少。通過韋伯-費希納定理可知,人眼很難感知到筆畫信息的微小變化,主觀上可認為DCC和OCC是一樣的。

第2階段:筆畫模糊,筆畫丟失,筆畫增加,字符轉換。當編碼QP繼續增大到一定程度時,其引起的筆畫變化已經達到人眼感知的閾值。此時,DCC對應產生筆畫模糊、筆畫丟失、筆畫增加、字符轉換等失真。在本階段存在兩個重要感知現象:①定義第1個感知現象為空域耦合失真效應,即任一QP對應的某一個DCC有可能呈現出一種失真類型,也有可能同時呈現出多種失真類型;②定義第2個感知現象為時域耦合失真效應,即隨著QP增大,任一DCC可能會出現筆畫模糊、筆畫丟失、筆畫增加、字符轉換中的任意幾個失真類型,而不是所有的失真類型都會出現。以上兩個感知現象見圖8。

第3階段:字符模糊。當編碼QP繼續增加時,圖像高頻信息損失嚴重,DCC的筆畫信息嚴重模糊。

第4階段:字符消失。當QP取值很大時,圖像高頻信息幾乎全部損失,DCC對應的區域已經沒有任何筆畫信息。字符模糊和字符消失可以認為是筆畫模糊的極端情況。

下面以圖8為例直觀地說明感知失真的變化路徑。對于“WebPage03”圖像中的“前”和“這”兩個字,當QP較小(為40)時,DCC對應著第一個階段,即筆畫無變化階段。隨著QP增大,“前”和“這”對應的DCC先后進入第二個階段。QP為46時,“這”對應的DCC同時出現了筆畫模糊和字符轉換兩種失真,此即空域耦合失真效應?!扒啊睂腄CC先后出現了筆畫丟失、筆畫增加和筆畫模糊,未出現字符轉換失真,此即時域耦合失真效應。當QP繼續增大到很大時,“前”和“這”對應的DCC先后進入字符模糊和字符消失階段。

3 中文文本屏幕內容圖像VVC編碼感知失真影響因素

前一節已經說明了中文TSCI VVC編碼失真類型及其隨著QP增大的變化趨勢。從信號處理的角度看,中文TSCI編碼過程可以抽象為信源—技術—信宿的信號處理一般模型。中文TSCI是原始信源,其以像素域形式表達圖像中的信息。編碼器是信息處理技術,通過預測、變換、量化和熵編碼等子技術達到數據壓縮的目的。編碼后的碼流是信宿端接收和存儲的數據,以壓縮域形式表示圖像中的信息。結合以上分析易得出以下結論:①在實際應用中,中文TSCI的編碼感知失真通常在信宿端出現;②信宿端出現的編碼感知失真肯定會同時受信源和編碼技術的顯著影響。VVC編碼技術對TSCI感知失真的影響主要體現為QP的影響,這部分在第1.1節和第2節已經分析。本節將從信源的角度分析影響中文TSCI VVC編碼感知失真程度的重要因素。這些因素具體包括字體大小和文本對比度。

3.1 字體大小

字體大小是漢字的一個重要屬性。定義中文TSCI的字體大小P為

(3)

式中:wc、hc分別表示圖像中第c個字符的寬度和高度;β表示圖像中字符的數量。在計算P之前采用投影分割法對圖像中漢字進行分割[25],從而得到每個字符。

圖9(a)~(c)分別給出了P=578,401,245時對應的3幅原始中文TSCI。對3幅圖像使用VTM16.2編碼,QP設置為49。得到的重建失真圖像分別如圖9(d)~(f)所示。原始圖像及失真圖像對應的SI數據也給出,以客觀反映圖像的紋理復雜度。由圖9易知,字體大小顯著影響中文TSCI 編碼重建圖像的感知質量,且字體越小圖像的感知質量等級越低。VVC標準采用基于預測、變換、量化和熵編碼的混合編碼框架。原始圖像首先經過幀內預測技術去除圖像中的空域冗余。幀內預測后的殘差值是后續變換量化的輸入。變換在去除一部分空域冗余的同時也使得能量更加集中。變換后的變換系數經過量化模塊完成多對一的映射,顯著減小了信息的取值區間。量化后的量化系數再經過熵編碼,進一步去除熵冗余,最終達到數據壓縮的目的。

(a)原始圖像, P=578, SI為0.363

理論上,幀內預測技術是無損的,且單獨使用該技術無法實現數據壓縮,但是其對于提升后續變換、量化和熵編碼等模塊的效率至關重要。通常,圖像紋理越復雜,臨近像素間的相關性就越弱,幀內預測技術找到的最優預測值與當前編碼像素之間的差別就越大,即預測殘差就越大。如圖9(a)~(c)所示,圖像中的字體越小,即單位面積上的筆畫越密,圖像的紋理就越復雜,其對應的SI也就越大。所以,字體越小的圖像對應的預測殘差值也就更大。圖10給出了圖9(a)~(c) 3幅原始圖像在使用VTM16.2、QP為49編碼時得到的幀內預測殘差值分布??梢钥闯?字體越小的圖像,預測殘差值接近0的像素越少,即其對應的預測殘差值相對偏大。進一步地,VVC采用的離散余弦變換、離散正弦變換等變換技術,理論上是無損的,且滿足能量守恒定律。所以,基于量化多對一的映射原理,在同等QP下,更大的預測殘差易導致更大的量化失真。VVC采用的基于上下文的自適應二進制算術編碼(context-based adaptive binary arithmetic coding,CABAC)等熵編碼技術同樣是無損的,所以更大的量化失真最終會導致重建圖像中的失真更大,圖像質量更差。

圖10 不同字體大小中文TSCI對應的幀內預測殘差分布Fig.10 Distribution of intra prediction residuals for Chinese TSCI with different font sizes

當前,屏幕內容圖像的質量評價是一個研究熱點,一些高水平方法被相繼提出。本文復現了一些代表性方法,包括ESIM[2]、GFM[26]、GSIM[27]、GSS[28]、MDOGS[29]、MSEA[30]。圖11為12幅測試圖像,是由VTM16.2在QP為49時編碼獲得地,P取值范圍為886~204。圖12為不同的質量評價方法對12幅測試圖像的測試結果。除了上述6種針對屏幕內容圖像設計的質量評價方法,也給出了圖像質量評價領域應用最廣泛的兩個傳統質量評價測度PSNR、SSIM[31]的評價結果和MOS值。特別地,GSS對應的分數越高說明圖像質量越差,而其他方法對應的分數越高說明圖像質量越好。

(a)P=886

對比圖11和12,可以從宏觀整體和微觀細節兩個角度得到以下結論:①在同樣QP下,隨著字體變小,失真圖像的質量在宏觀整體上呈下降趨勢,圖12復現的所有評價方法都能描述這一整體變化趨勢;②對于字體接近的一些圖像,其圖像差別較少且不影響文本語義的感知,基于韋伯-費希納定理和文本感知的特點,大部分測試者認為這些圖像的感知質量是一樣的。但是,當前大部分質量評價方法很難準確描述這一微觀差別。例如,圖11(a)、(b)兩幅圖像感知質量明顯是一樣的,但圖12中大部分測度認為這兩幅圖像的質量是不一樣的,PNSN、GSS和 MSEA得出的分數差別甚至還較大。綜上,本文認為有必要針對中文TSCI的失真特性研究針對性的更加有效的質量評價方法,且需要考慮字體大小的影響。

3.2 文本對比度

文本對比度是影響中文TSCI編碼失真程度的另一個重要屬性。應用中文TSCI的文本對比度D為

(4)

式中:xi,j表示圖像第i行第j列的像素值;w、h分別表示圖像的寬度和高度。

圖13(a)~(c)分別展示了D=3 542,1 704,757時對應的3幅原始中文TSCI。對這3幅圖像分別使用VTM16.2編碼,QP為46,得到如圖13(d)~(f)所示的重建失真圖像。結合圖像的SI數據可以看出,在對比度變化影響下,SI仍然可以有效衡量中文TSCI的紋理復雜度,例如圖13(a)~(c)包含的文字相同,其對應的SI取值也一樣。由圖13易看出,文本對比度顯著影響中文TSCI 編碼重建圖像的感知質量,且對比度越小圖像的感知質量等級越低。

(a)原始圖像, D=3 542, SI為0.379

中文TSCI可以劃分為前景漢字和背景兩部分。并且,相比于自然圖像等其他內容,漢字在內容特性上具有以下顯著特點:漢字筆畫的亮度或顏色相對單一,甚至經常出現一種亮度或顏色的情況。所以,漢字筆畫區域上的像素相關性較強。使用幀內預測編碼漢字筆畫上的像素時,如果參考像素也來源于筆畫上的其他像素,則理論上其預測效率會較高,對應的預測殘差值較小。但是,如圖13(a)~(c)所示,當圖像文本對比度變小時,文字筆畫像素取值與背景像素取值越接近。背景像素對筆畫像素最優幀內預測參考值選擇的干擾增大,筆畫像素對應預測殘差值變大的概率也會增大。圖14給出了圖13(a)~(c)3幅原始圖像在使用VTM16.2、QP為46編碼時得到的幀內預測殘差值分布??梢钥闯?文本對比度越小的圖像,預測殘差值接近0的像素越少,即其對應的預測殘差值相對偏大。如第3.1節分析,在同等QP下,更大的預測殘差易導致更大的量化失真。更大的量化失真會導致重建圖像中失真更大,圖像質量更差。

圖14 不同文本對比度中文TSCI對應的幀內預測殘差分布Fig.14 Distribution of intra prediction residuals for Chinese TSCI with different text contrasts

圖15為12幅測試圖像,由VTM16.2在QP為46時編碼獲得,D取值范圍為4 937~757,對應現實中常見的文本對比度。圖16為不同的質量評價方法對應的測試圖像的質量評價結果。

(a)D=4 937

(a)MOS

對比圖15和16可以得到以下結論:①在同樣QP下,隨著文本對比度變小,失真圖像的質量在宏觀整體上呈下降趨勢,而圖16顯示,除PSNR外的所有方法都能描述這一整體變化趨勢。圖15(a)的感知質量顯著好于圖15(l)的感知質量,但是圖15(a)的PSNR值反而比圖15(l)的PSNR值低,這顯然是錯誤的評價結果。②對于文本對比度引起的失真,人眼通常更關注文本的清晰度是否影響文本語義的準確感知,而忽略背景對比度的變化[3]。當前的大部分質量評價方法很難準確描述對比度變化對中文TSCI感知質量的影響。例如,圖15(a)、(b)所示的兩幅圖像的差別很小,大部分測試者認為其感知質量是一樣的,但是圖16的所有質量評價方法得出的這兩幅圖像對應的質量分數顯示兩幅圖像的質量均有差別,與人眼感知結果不符,甚至一些方法對應的質量分數差別較大,例如GSIM、MSEA。綜上所述可知,有必要針對中文TSCI的失真特性研究針對性的更加有效的質量評價方法,且需要考慮文本對比度的影響。

4 結 論

本文聚焦中文TSCT圖像的感知失真,基于構建的中文文本屏幕內容圖像數據庫,分析了中文TSCI的感知失真類型和發展路徑。在此基礎上,結合VVC混合編碼架構原理對影響感知失真程度的因素進行了分析,對比了中文TSCI在經過VVC編碼后,當前代表性的屏幕內容圖像質量評價方法的失真性能表現,得到如下結論:

(1)作為由特殊筆畫構成的象形文字,中文TSCI VVC編碼感知失真可以從筆畫變化的角度將失真類型進行有效分類,并分為筆畫模糊、筆畫丟失、筆畫增加和字符變換4種類型;

(2)字符變換作為漢字編碼時出現的一類特殊的失真類型,會傳遞錯誤的語義信息,欺騙人眼感知;

(3)隨著QP由小到大變化,中文TSCI VVC編碼感知失真類型的變化路徑分為4個階段,并在第二個階段呈現空域和時域耦合失真效應;

(4)字體大小和文本對比度是影響中文TSCI VVC編碼失真程度的關鍵因素,且字體越小或文本對比度越低,則對應失真圖像的感知質量等級越低;

(5)當前提出的大部分質量評價方法,能夠宏觀整體地描述中文TSCI VVC編碼失真圖像的質量,但在微觀細節上還存在提升空間,需要針對中文TSCI VVC編碼失真圖像研究更加有效的質量評價方法,且需要考慮字體大小與文本對比度的影響。

后續有價值的研究方向包括:適用于中文TSCI VVC編碼失真圖像的質量評價方法,優化中文TSCI 感知率失真性能的VVC高效編碼方法等。

猜你喜歡
筆畫像素編碼
趙運哲作品
像素前線之“幻影”2000
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
筆畫相同 長短各異
——識記“己”“已”“巳”
有趣的一筆畫
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
“像素”仙人掌
Genome and healthcare
找不同
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合