?

虛擬現實中視覺誘發暈動癥時空多特征評價

2024-04-08 09:02董奇峰郁梅蔣志迪魯子昂蔣剛毅
光學精密工程 2024年4期
關鍵詞:視差立體數據庫

董奇峰,郁梅*,蔣志迪,魯子昂,蔣剛毅

(1.寧波大學 信息科學與工程學院,浙江 寧波 315211;2.寧波大學 科學技術學院 信息工程學院,浙江 寧波 315212)

1 引言

虛擬現實(Virtual Reality,VR)技術作為數字世界元宇宙的重要基礎,在教育、專業培訓、醫療和娛樂等領域有著廣泛應用[1]。然而,阻礙VR 進一步發展的一個重要因素是沉浸式VR 體驗可能對用戶造成視覺誘發暈動癥(Visually Induced Motion Sickness,VIMS)[2],也被稱為網絡?。–ybersickness)、模擬器?。⊿imulator Sickness)等[3]。其主要表現為視覺不適、迷失方向甚至惡心嘔吐等[4]。當用戶沉浸式觀看VR 時,其視覺感知到的是虛擬運動而非物理運動,前庭系統無法感知沉浸式顯示器視覺誘導的自我運動[5],這種視覺和前庭感官的不匹配誘發了暈動癥。讓用戶預知所要觀看的VR 內容潛在的暈動程度有助于避免暈動癥的發生、保障用戶的健康。因此,評價VR 內容可能誘發的暈動癥等級是一個亟待解決課題。

目前,主流的VIMS 評價方式可分為基于主觀問卷、生理信號、視覺內容及三者之間結合的方式。主觀問卷方式,如模擬器疾病問卷(Simulator Sickness Questionnaire,SSQ)[6]等,耗時長且受限于VR 內容數量,難以實時應用?;谏硇盘柕脑u價方式依賴于佩戴式儀器測量結果,如腦電圖、皮膚電反應、胃電圖、心率等[7],對受試者易產生除視覺內容外的不舒適感。因此,建立有效的不依賴于主觀或生理信號的客觀VIMS評價模型對VR 內容生成與體驗質量改善有十分重要意義。

基于視覺內容的VIMS 評價研究尚不成熟,文獻[8]建立了一個包括36 個虛擬場景的VR 病數據庫,利用交互模型提出了一個VR 疾病預測器框架。文獻[9]建立了名為網絡病參考的數據庫,包含兩個參考場景并考慮多因素創建了52 個不同的VR 場景;提出了一種兩階段網絡架構實現神經表征和時空表征。文獻[10]為了優化VR病與VR 沉浸感,建立了包含10 個參考虛擬現實場景的VR-SP 數據庫,并通過兩種運動類型和四種水平速度將參考場景拓展10 種變化。同時,設計時空旋轉幀差圖的統計模型預測VIMS,通過視覺活動、內容特征捕捉VR 內容沉浸感。文獻[4]建立了包含52 個不同內容屬性的VR 場景,統計各項因素對暈動程度的重要程度。文獻[11]構建了10 種類型兩種幀速率的VR 疾病數據庫,并提出了一種新的生理融合深度網絡,通過內容刺激和生理反應來估計個體VR 疾病。文獻[12]提出的SACA Net 分別從VR 內容和人體生理信號中提取癥狀特征以預測暈動癥。文獻[13]重點考慮VR 內容中的異常運動,建立的全景視頻測試數據庫包含3 種運動模式,9 個場景;所提網絡模型將原始視頻和生成視頻之間的差異投影至主觀評分空間來預測VIMS。文獻[14]針對視頻拍攝中相機抖動引起的VR 疾病,建立了包含20 個不同程度相機抖動的全景視頻數據庫,將VR 視頻場景方向和速度的變化作為特征預測VR 疾病。文獻[15]側重于預測VR 疾病的主要癥狀的水平,而非VR 疾病的總體程度;建立了包含20 個基準視頻,4 種不同幀速率,共80個視頻的全景視頻數據庫。文獻[16]設計了內容刺激引導器以模仿人類感受VR 疾病。文獻[17]考慮人類視覺來學習信息的特征,并模擬VR 內容被接受時的學習過程,通過虛擬內容學習重構器和疾病評分預測器預測分數。上述工作所涉及的虛擬現實中VIMS 評價的研究均為基于非立體全景視頻內容,因而未考慮人眼立體感知特性。

文獻[18]建立了一個包含19 個場景的立體全景視頻內容及其相應的暈動程度評級的數據集,手工提取特征訓練機器學習算法。文獻[19]建立了目前包含基準場景最多的立體全景視頻數據庫,共包含116 個不同的立體全景視頻內容。作者采用深度學習的方式考慮人類視覺系統的注意力機制和視網膜的多通道特性,對虛擬環境中的感官沖突以及雙目立體感知的三階段過程進行仿真建模;并在時間池化模塊利用LSTM(Long Short-Term Memory)模擬人眼的時間記憶效應。然而,基于視覺內容的評價方案大多考慮的要素不夠全面,對運動信息的提取較為簡單,同時少有考慮時域上的突變對暈動癥的影響。

針對上述問題,本文從人眼感知特性和視頻時空特征的角度考慮,提出了一種基于時空多特征的虛擬現實中視覺誘發暈動癥評價模型。實驗結果表明,該模型在立體全景視頻數據庫SPVCD 上取得了優良的預測性能,預測結果與人眼所感知的暈動程度有較好的一致性。

2 提出的方法

本文從人眼感知特性和視頻時空特征的角度考慮,提出了一種基于時空多特征的虛擬現實中視覺誘發暈動癥評價模型,其框架如圖1 所示。該模型分為預處理模塊、特征提取模塊及時域聚合與回歸模塊。預處理模塊利用左、右視點的中心視口IL,IR求取光流圖F、顯著圖S和視差圖D用于特征提取。運動特征提取模塊用于前背景加權運動特征M和加速度特征U的提??;視差特征提取模塊用于視差強度特征E和視差梯度能量特征G提??;空域感知特征提取模塊包含一階色度亮度特征H1,V1,二階色度亮度特征H2,V2及空間感知信息特征SI的提取。時域突變特征提取模塊分別對所提取的前背景加權運動特征M、視差強度特征E、一階色度亮度特征H1,V1計算最大運動突變特征Cmax_M、運動突變特征和Csum_M、最大視差強度突變特征Cmax_E、視差強度突變特征和Csum_E、最大色度、亮度突變特征Cmax_H,Cmax_V,色度、亮度突變特征和Csum_H,Csum_V。最終,將提取的幀級特征進行時域聚合并對其與突變特征采用支持向量回歸(Support Vector Regression,SVR)得到VIMS 評價值。

圖1 視覺誘發暈動癥評價模型Fig.1 Assessment model of visually induced motion sickness

在立體全景視頻數據庫SPVCD 的主觀評分實驗中,為避免頭部旋轉而非視頻內容引起暈動,受試者只對每個視頻的前中央視口進行評分。因此,本文將原始的立體全景視頻序列投影為立方體投影格式,并取正面投影面作為中央左視口、右視口。對獲取的左、右視口IL,IR通過文獻[19]中的方法計算得到顯著圖S,并通過文獻[20]中的方法計算得到視差圖D與光流圖F,用于后續的特征提取。

其中:Mk,MkB和MkO分別為第k幀的加權運動強度、背景運動強度和前景目標運動強度。MkB和MkO分別通過二值化后的顯著圖Sbk和非顯著圖1-Sbk加權光流圖Fk得到,ωB和ωO分別為背景運動向量強度和前景目標運動向量強度的權重,滿足條件:ωB和ωO∈[0,1],ωB+ωO=1。

其中:NkB,Nk分別為第k幀背景部分和視口中運動強度非零的像素數,ω1表示運動密度,反映運動的空間分布。該值越大,運動分布越廣,越關心背景中所發生的運動。ω2表示背景運動強度,反映背景運動能量。該值越大,背景所包含的運動能量越高。

作為實例,圖2 給出了前背景加權運動特征提取過程,圖2 為SPVCD 中兩個不同運動類型場景其中一幀的中心視口圖,上圖為序列47(MOS:4.09)的第53 幀中心視口,下圖為序列18(MOS:1.95)的第296 幀視口,圖2(b)~圖2(e)分別為兩視口所對應光流圖、顯著圖、背景運動強度圖、目標運動強度圖。其中,序列47 第53 幀的背景運動強度權重ωB為0.28,前景目標運動強度權重ωO為0.72;序列18 第296幀ωB為0.88,ωO為0.12。采用背景與前景目標運動加權的方式,對于序列47 此類前景目標運動而背景幾乎不運動的視頻序列,用戶會更關注其前景目標的運動狀態。而對于序列18 此類前景目標與背景都處于運動狀態的序列,前景目標會受到關注,同時更需關注背景的運動狀態,因為此時背景的運動狀態與視覺誘導的自我運動具有更高的關聯性,是影響暈動程度的重要因素。

圖2 前背景加權運動特征提取Fig.2 Foreground-background weighted motion feature extraction

圖3 展示了本文所提出的前背景加權運動特征與SPVCD 中70 個(數據庫共包含116 個視頻序列)視頻序列平均主觀得分差異(Differential Mean Opinion Score,DMOS)之間的關系。DMOS 越大代表視頻在主觀實驗中暈動程度越嚴重,反之,暈動程度越輕。SPVCD 中采用平均主觀意見分(Mean Opinion Score,MOS),由于運動強度越大往往所對應視頻序列的MOS 越低,因此,此處采用DMOS 用于展示本文所提前背景加權運動特征與主觀評價之間的一致性。由圖3 可知,本文所提的前背景加權運動特征與SPVCD中大部分的視頻序列的主觀評分存在較高的一致性,對暈動程度預測具有較好的表征能力。

圖3 前背景加權運動特征與SPVCD 部分視頻序列DMOS 之間的關系Fig.3 Relationship between pre-background weighted motion features and DMOS of partial videos in SPVCD

2.2.2 加速度特征

對于連續幀的視頻序列來說,若未發生加速度等異常運動,那么連續幀間的光流變化很??;反之則連續幀之間就會出現較明顯的光流變化[26]?;谠撍枷?,通過相鄰幀之間的速度變化差異計算序列的加速度,當視頻場景中出現加速或減速時,兩幀之間會出現較為明顯的速度差別。對由預處理得到的光流圖像F,計算得到每一幀內像素點對應的水平和垂直位移,并根據水平、垂直位移矩陣和幀間間隔計算每一幀上每一個像素點的速度。通過相鄰兩幀的速度差表示加速度,得到基于幀間差的加速度特征。根據水平、垂直位移和幀間隔n計算第k幀速度Vk:

其中:Δxi_k,Δyi_k分別為每個像素點的水平與垂直位移量,N為視口中的總像素數,n為兩幀之間間隔,n取1。通過計算相鄰兩幀圖像的速度差的絕對值表示第k幀的加速度特征Uk。

2.3 雙目感知特征

雙眼視差過大是誘發視覺不適的主要原因之一,比起直接采用整張視差圖像素的均值作為視覺不適特征,DCT 系數能夠更好地表達圖像中的特征信息[27]。對分塊后的視差圖進行多尺度二維離散余弦變換,每個塊的2D-DCT 系數由DC 系數和AC 系數組成,其中DC 系數表示塊的平均強度。因此,使用位于DCT 塊左上角的DC系數代表整塊視差強度特征E。將所有塊對應的DC 系數之和作為整個視差圖的視差強度特征E。因此,第k幀中心視口圖所對應的視差強度特征Ek計算為:

其中,g表示DCT 塊的尺度級別,對于g=1,2,3,4 分別對應于塊的數量M×N=1×1,4×4,8×8,16×16;IJ為分塊視差圖中第J塊,J=M×N;DC(·)表示取DC 系數。

2.3.2 視差梯度能量特征

空間方向上的快速視差變化同樣容易引起輻輳調節沖突,視差梯度能量特征是為了捕捉壓縮域中相鄰塊之間的局部視差能量變化。首先,使用整個塊的DCT 系數之和來表示每個視差塊的能量,并計算當前DCT 塊與其上、下、左、右塊之間的能量差來獲得視差梯度能量。因此,尺度級別為g的第k幀中心視口圖所對應特征計算為:

其中:E(m,n)表示位于空間位置(m,n)的DCT塊Amn的能量,g表示DCT 塊的尺度級別,J代表視差圖中DCT 塊的數量。

2.4.1 亮度、色度特征

人類視覺系統對顏色和亮度的感知非常敏感,在觀看視覺內容時顏色分布的不均勻以及過亮或過暗的內容都會在觀看過程中產生不舒適的體驗感,進而產生暈動。

圖像的顏色分布主要集中在低階矩中,其中,一階矩反映圖像明暗程度、二階矩描述了顏色整體分布范圍。一階矩是計算所有像素點的均值,二階矩是計算所有像素點的方差。將RGB顏色空間轉化到與人類描述彩色方式更為一致的HSV 顏色空間,并在HSV 顏色空間分別提取左右視口一、二階的亮度矩和色度矩。以色度分量為例,公式如下:

其中:Hk為第k幀HSV 顏色空間中的色度分量,H1_k為第k幀的色度一階矩,H2_k為第k幀色度二階矩,(x,y)為色度分量的坐標,P為視口大小。亮度分量一、二階矩V1_k,V2_k由相同方式求得。

2.4.2 空間感知信息特征

空間感知信息(SI,Spatial-perceptual Information)量化了視頻序列中存在的空間細節的復雜程度,它隨著視覺畫面內容豐富程度增加而增加。對于虛擬運動強度相似的兩個視頻序列,更高的暈動程度可能是由于更高的空間感知信息所造成的??臻g感知信息通過計算梯度向量得到。首先,利用Sobel 算子計算得到梯度向量,對于每個視頻幀計算梯度向量幅度的標準差。第k幀的空間感知信息計算公式為:

以圖4 中兩序列為例,圖4(a)的上下圖分別為SPVCD 中序列3 和序列53 的中心視口圖,圖4(b)的上下圖分別為所對應梯度計算結果。

圖4 SPVCD 中相似序列空間感知信息比較Fig.4 Comparison of SI of similar videos in SPVCD

序列3 的MOS 值為4.86,平均前背景加權運動特征M為4 276;序列53 的MOS 值為4.27,M為4 084。通過計算,序列3 的空間感知信息特征SIk的均值為0.04,而序列53 的空間感知信息特征SIk的均值為0.10。當兩個視頻序列的運動強度相近且均未出現場景切換以及大幅度的視差變化時,空間感知信息成為影響視覺舒適度的因素之一。畫面內容豐富的視頻序列相比于畫面內容簡單的視頻序列往往更容易在觀看時產生暈動的感受,但相比于運動所造成的不舒適,空間感知信息的增大所造成的暈動程度較為有限。

上述的三類特征均為對待評價的視頻序列的每一幀進行提取所得,稱為幀級特征。通過時域聚合將幀級特征計算為用以描述視頻序列整體暈動程度的特征。對幀級的前背景加權運動特征Mk、加速度特征Uk、空間感知信息特征SIk,3 個幀級特征在時域上進行平均值、最大值、中值、方差聚合,得到對應的12 維立體全景視頻中心視口序列特征;對4 個尺度的幀級視差強度特征Ek、視差梯度能量特征Gk,在時域上進行平均值聚合得到對應的8 維立體全景視頻中心視口序列特征;對幀級的一階亮度、色度特征V1_k,H1_k,二階亮度、色度特征V2_k,H2_k,在時 域上進行平均值聚合得到相應的8 維立體全景視頻中心視口序列特征。最終通過時域聚合共獲得28維特征作為模型的部分特征用于評價立體全景視頻的暈動癥。將用于時域聚合的幀級特征記為Fk,在時域上實現平均值、最大值、中值、方差聚合的公式如下:

其中:Favg,Fmax,Fmid和Fvar分別為幀級特征時域平均值、最大值、中值和方差聚合結果。K為視頻序列幀數,SPVCD 中序列統一為K=400。(·)max為取最大值,(·)median為取中值。

2.6 時域突變特征

視覺內容的運動強度一定程度反映了視覺前庭不匹配的程度,在沉浸式的視覺環境中,運動的平滑度對VIMS 的影響也很大[28]??焖?、突然的運動變化在運動強度一定的基礎上更容易導致視前庭不協調,從而引發暈動癥。為了衡量快速、突然的運動變化,并同時延伸考慮視差、亮度、色度的突然變化對觀看者可能引起的暈動程度,本文提取時域突變特征用于評價此類因素所帶來的VIMS。

對得到的幀級前背景加權運動特征Mk、視差強度特征Ek、一階色度、亮度特征H1_k,V1_k分別進行時域突變特征的提取。首先,對幀級特征在時域上做窗口W大小為16 的滑動平均處理,以減少在特征圖提取過程以及幀級特征計算過程中所帶來的誤差?;瑒悠骄蟮那氨尘凹訖噙\動特征值并求取幀級特征值的極值(局部最大、最小值)。圖5 展示了滑動平均處理前后SPVCD 序列32 的前背景加權運動特征值。

圖5 幀級運動特征值滑動平均處理Fig.5 Frame level motion feature value through sliding averaging processing

以運動強度突變為例,在一段時間內運動強度變化越大,所造成的暈動程度越大,在統計上表示為相鄰的兩極值點所在直線的斜率的絕對值越大,所對應運動強度變化越快。簡化算法默認在兩個極值點間各點之間的斜率值保持不變。在相同斜率變化下,所持續時間越長,所造成的的運動程度也會越大,因此通過計算相鄰的兩極值點所在直線的斜率與兩極值點之間的距離的比率表示第m段運動突變值:

其中:Dm_M代表線性歸一化后第m組局部最大運動特征值max(Mm)和最小運動特征值min(Mm)之間的歐氏距離,dM與dk用于表示最大、最小特征值之間的強度差以及幀間隔。K表示兩相鄰極大極小運動特征值點之間的斜率的絕對值。Cm_M為第m組運動強度突變值,km_max,km_min分別表示局部最大運動特征值和最小運動特征值所對應的幀數,即兩者之差dm表示一次運動強度突變所持續的時間間隔。當一次突變所持續的時間間隔過短時(dm<8)默認對用戶所造成的暈動感可以忽略不計。

最終對一個視頻中得到的多段運動強度突變值求取總和Csum_M以及最大值Cmax_M,作為表示一個視頻序列中由于運動突變所造成的暈動程度的運動突變特征值。圖6(a)和圖6(b)展示了SPVCD 中序列32 和序列39 的前背景加權運動特征值與運動突變特征值結果。序列32 的MOS=1.59,屬于暈動程度較大的視頻序列;序列39 的MOS=4.00,屬于暈動程度較小的視頻序列。通過實驗結果可以發現,兩個序列的前背景加權運動特征平均值接近,但序列32 的運動突變總和(Csum_M=37.50)與運動突變最大值(Cmax_M=6.17)大于序列39 的運動突變總和(Csum_M=22.28)與運動突變最大值(Cmax_M=3.80)。由此證明對于整體運動強度接近的視頻序列,存在更多運動變化的視頻序列更容易造成VIMS。

圖6 運動強度相似序列運動突變特征比較Fig.6 Comparison of motion mutation feature in videos with similar Mk

利用上述相同方法求得視頻序列的視差強度突變特征值Csum_E,Csum_E,亮度突變特征值Csum_V,Csum_V,色度突變特征值Csum_H,Csum_H。最終,提取通過時域聚合的28 維特征以及8 維時域突變特征,共36 維特征用于立體全景視頻VIMS評價。

2.7 回歸模型

采用SVR 作為映射函數對特征進行回歸以得到最終的客觀評價分數??紤]一組訓練數據{(x1,y1),…,(xl,yl)},其中xi∈F為提取的VIMS感知特征,yi是相應的MOS。給定參數C>0和ε>0,SVR 的標準形式表示為:

其中,K(xi,xj)=φTφ為核函數。本文使用核函數為K(xi,xj)=exp(-γ‖xi-xj‖2)的徑向基函數。

3 實驗結果與分析

所提出的預測模型在SPVCD 立體全景視頻數據庫上進行了測試。立體全景視頻數據庫(SPVCD)[19]共包含116 個時長為20 s 的立體全景視頻,其中既包含自然場景,也包含人工合成場景。該數據庫涵蓋豐富的場景類型、運動類型,包含各種可能造成不同程度暈動的立體全景視頻。SPCVCD 數據庫部分視頻首幀如圖7所示。

圖7 SPVCD 數據庫部分視頻示例Fig.7 Sample videos in SPVCD database

3.1 整體性能分析

為了檢驗模型的預測性能,本文在SPVCD立體全景視頻數據庫上進行了實驗。數據庫中的116 個視頻,80% 用于訓練,20% 用于測試,并確保用于訓練與測試的視頻序列互不重疊。采用皮爾遜線性相關系數(Pearson Linear Correlation Coefficient, PLCC)、斯皮爾曼相關系數(Spearman Rank-order Correlation Coefficient,SROCC)、均方根誤差(Root Mean Square Error,RMSE)三個性能指標來衡量所提出模型的性能,計算公式如下:

其中:N表示樣本個數,Xi和Yi分別表示第i個樣本的客觀模型預測值和主觀評分值和分別表示客觀模型預測均值和主觀評分均值。PLCC是用于衡量兩個變量之間線性關系強度的指標,其取值范圍為-1~1。當PLCC 接近1 時,表示兩個變量之間存在強正線性關系。

其中:RXi和RYi分別表示主觀評分值和客觀模型預測值按相同順序排序后,第i個分數在各自序列中的索引。SROCC 用于衡量兩個變量之間的單調關系強度,當其接近1 時,表示兩個變量之間存在強正單調關系。

RMSE 是衡量預測值與實際值差異的指標,數值越小代表預測值與實際值越接近。

同時,為了驗證本文所提出模型的性能以及各特征的有效性,表1 給出了本文所提出的VIMS 評價模型以及去除其中一個類型特征后在SPVCD 數據庫上的性能指標,并比較了將本文所提出的加權運動特征提取方法改為僅使用簡單非加權的顯著區域光流統計提取運動特征后的性能指標。為了盡量保證實驗中訓練集與測試集的隨機性,對SPVCD 立體全景視頻數據庫共進行1 000 次8∶2 比例的訓練-測試集劃分,并取1 000 次結果的RMSE 的中值所對應模型的預測結果作為最終預測性能指標。

表1 不同特征集在SPVCD 上測試的性能指標Tab.1 Performance indicators of different feature sets when tested on SPVCD

通過表1 實驗結果可以發現,在去除任何一個類型的特征后模型性能均出現了不同程度的下降,說明在沉浸式視覺內容觀看過程中視覺內容的運動強度、視差、色彩類型、時域突變等都是影響暈動癥程度的要素。其中,在不包含運動特征時,模型性能出現了最大程度的下降,這說明在觀看VR 內容的過程中,視覺內容中的運動強度對暈動癥的產生起著主導作用,這也印證了產生暈動癥的主要原因為視覺和前庭感官感知運動的不匹配。同時,視差特征的缺失對模型性能產生的影響最小,一方面的原因可能是相比于立體圖像、立體視頻中備受關注的視差特征,在立體全景視頻中由于觀看方式的改變,沉浸式的觀看使得受試者更多地受到運動等更為主觀的因素的影響;另一方面,由于觀看方式的不同,立體全景視頻采用頭戴式顯示器的觀看方式,容易發生在立體圖像、視頻中的焦點調節和會聚沖突現象有所減少。通過對比不同的運動特征提取,相比于以往簡單的對顯著區域的光流進行統計以表示視覺內容的運動強度,采用本文所提出的顯著區域內外加權的運動特征提取方式在性能指標上也得到了提升,由此也說明在觀看過程中觀看者的暈動程度不僅受顯著區域的運動情況所影響,也會受到顯著區域外的運動情況所引起的自我運動影響。

3.2 不同統計方式下模型性能對比

考慮到數據庫場景的多樣性,難以遍歷每一種訓練-測試集劃分結果所對應的模型性能。因此,此處以多種統計方式對模型性能進行驗證與對比。本文采用SVR 對特征空間進行回歸,回歸時對數據集進行1 000 次的8∶2 比例訓練-測試集劃分,并分別取三個指標所對應的中值作為最終的結果。最終,進行50 次實驗分別以RMSE、SROCC 作為中值取對應的指標結果以及50 次實驗的指標平均值。對比算法[19]為深度學習方法,將數據庫視頻隨機劃分為50 對訓練集和測試集在其網絡模型上進行訓練測試,并選擇50 次實驗結果中RMSE 中值所對應的模型代表最終性能。本文統計了對比算法50 次實驗結果中SROCC 中值所對應的模型性能及50 次實驗結果的均值。表2 為不同的統計方式得到的兩個模型的性能指標。

表2 不同統計方式下性能對比Tab.2 Performance comparison under different statistical methods

實驗結果表明,在以多種統計方式對模型性能進行比較時,兩個模型的各項指標均存在一定程度的波動。這與SPVCD 的特點有關,SPVCD包含了目前用于VIMS 評價中數量最多的場景類型。因此,不同的訓練、測試場景選擇對模型預測結果的影響較大。本文所提出的方法在三種統計方式中PLCC 和RMSE 均優于對比算法,SROCC 低于對比算法。這與對比算法網絡訓練時以最高SROCC 值選取最優網絡模型參數存在一定關聯。

3.3 跨數據庫性能對比

為驗證所提出模型的泛化性,在斯坦福大學的數據庫上進行了跨數據庫實驗[18]。Stanford 數據庫包含19 個立體全景視頻場景,每個場景持續60 s。幀速率分別為24 fps,25 fps 和30 fps,分辨率為1 K,2 K 或4 K。以SPVCD 數據庫中的116個視頻序列作為訓練集,對Stanford 數據庫的19個視頻序列進行測試,預測得到最終的性能指標。

值得注意的是,在SPVCD 數據庫中的主觀得分越高,暈動病的程度越低。這與Stanford 數據庫的主觀分數相反,Stanford 數據庫的MOS 范圍為4.3~41.1,遠遠超過了SPVCD 庫的最大MOS(MOS 范圍:1.318 2~4.863 6)。因此,在跨數據庫實驗中,首先將Stanford 數據庫的MOS映射到SPVCD 的得分空間。將Stanford 數據庫的最大MOS 對應SPVCD 數據庫的最小MOS,Stanford 數據庫的最小MOS 對應SPVCD 數據庫的最大MOS。

表3 顯示了所提出的暈動病程度預測模型在Stanford 數據庫上的跨數據庫實驗結果以及與文獻[19]的對比結果。所提出模型在Stanford 數據庫上的PLCC,SROCC 和RMSE 分別為0.678,0.633 和0.672,取得了較為良好的預測性能,各項性能指標均高于文獻[19],原因可能是文獻[19]所提出的方法為深度學習方法,在針對規模較小數據集時,模型容易過擬合導致模型性能不佳。

表3 所提出模型在Stanford 數據庫上的總體及對比性能指標Tab.3 Overall and comparative performance indicators of the proposed model on Stanford database

3.4 相關方法分析

目前對于虛擬現實中VIMS 評價的研究多是基于非立體內容,而對于立體全景視頻的VIMS 評價研究還較少。表4 給出了兩個團隊各自數據庫的簡單介紹。分別為延世大學團隊和韓國科學技術院團隊。延世大學團隊和韓國科學技術院團隊均是研究非立體全景內容的VIMS評價,其中,各團隊使用數據庫不同且多樣。截至目前,延世大學團隊建立了三個用于VR 暈動癥研究的主觀數據庫,但數據庫均尚未公開。韓國科學技術院團隊建立了四個用于VR 暈動癥研究的主觀數據庫,數據庫均包含生理信號,可以獲取基準視頻,但數據庫中所包含的基準視頻的變體沒有直接提供。例如,文獻[15]中的數據庫包含80 個視頻,該數據庫具有20 個基準視頻,可以直接獲??;而每個基準視頻又具有三種變體視頻,不可直接獲取。

表4 所提方法與其他模型的結果匯總Tab.4 Summary of results the proposed method and other model

因目前已公開的數據庫均是非立體全景視頻數據庫且不可完全獲取,與包含生理信號的方法對比不公平,致使本文所提模型未在其數據庫上進行相關實驗,暫時不能完全驗證本文所提模型的泛化性。延世大學團隊和韓國科學技術院團隊所提出的模型大多使用了生理信號,這在本文所使用的SPVCD 基準數據中是不存在的,因此也無法將其所提模型在SPVCD 數據庫上進行驗證。不同的數據庫配置導致設計和建立VIMS評價模型的出發點不同,無法在同一數據庫上直接對比模型的性能優劣,因此,表4 僅對已有的相關研究結果進行了匯總。由于相關數據庫不同,其結果僅用于對客觀VIMS 評價模型的分析,不能直接通過表4 中指標值來比較判斷客觀評價模型間的優劣。只有文獻[19]的方法與本文方法同在SPVCD 數據庫上進行了性能測試。表4中,本文所提模型得到的性能指標采用與其相同的模型選取方式:對數據庫隨機劃分進行測試并選取RMSE 為中值所對應的模型結果作為最終的性能指標。對比結果發現本文所提出的模型在PLCC,RMSE 兩項指標上取得了更優異的指標,在SROCC 上有所不足。文獻[19]采用深度學習的方法,同時考慮了雙目感知、運動特征等特征,然而對運動特征的考慮較為單一,且未考慮時域上的突變的影響。

4 結論

本文針對立體全景視頻中存在的視覺誘發暈動癥這一問題,綜合考慮可能導致視覺誘發暈動癥的各項因素,設計了基于時空多特征的虛擬現實中視覺誘發暈動癥評價模型。同時,在運動特征提取方面基于視覺感知沖突理論,設計了前背景加權運動特征提取。在時域突變信息度量方面,在時域聚合的基礎上,分別對運動信息、視差信息、空域感知信息等特征提取突變特征。在SPVCD 數據庫上,所提方法展現出了與最先進的深度學習方法相當的預測性能。在下一階段工作中,如何將本文中提取特征方式與深度學習聯合,構造自動進行對應特征提取學習的深度神經網絡將成為研究的重點。

猜你喜歡
視差立體數據庫
基于自適應窗的立體相機視差圖優化方法研究
念個立體咒
基于梯度域引導濾波的視差精煉迭代算法
立體登陸
數據庫
炫酷立體卡
基于分割樹的視差圖修復算法研究
數據庫
數據庫
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合