?

人臉識別任務驅動的低光照圖像增強算法

2023-01-13 07:00范溢華王永振燕雪峰宮麗娜郭延文魏明強
圖學學報 2022年6期
關鍵詞:圖像增強人臉人臉識別

范溢華,王永振,燕雪峰,宮麗娜,郭延文,魏明強

人臉識別任務驅動的低光照圖像增強算法

范溢華1,王永振1,燕雪峰1,宮麗娜1,郭延文2,魏明強1

(1. 南京航空航天大學計算機科學與技術學院,江蘇 南京 210016;2. 南京大學計算機軟件新技術國家重點實驗室,江蘇 南京 210023)

圖像容易受外界照明條件的影響或相機參數條件的限制,導致圖像整體偏暗、視覺效果不佳,降低了下游視覺任務的性能,從而引發安全問題。以人臉識別任務為驅動,提出了一種基于對比學習范式的非成對低光照圖像增強算法Low-FaceNet。Low-FaceNet主干采用基于U-Net結構的圖像增強網絡,引入特征保持、語義分割和人臉識別3個子網絡輔助圖像增強網絡的訓練。使用對比學習范式可以使得真實世界大量非成對的低光照和正常光照圖像作為負/正樣本,提高了真實場景的泛化能力;融入高階語義信息,可以指導低階圖像增強網絡更高質量地增強圖像;任務驅動可以增強圖像的同時提升人臉識別的準確率。在多個公開數據集上進行驗證,可視化與量化結果均表明,Low-FaceNet能在增強圖像亮度的同時保持圖像中各種細節特征,并有效地提升低光照條件下人臉識別的準確率。

低光照圖像增強;人臉識別;對比學習;任務驅動;語義分割

視覺信息在人類所接收的各種復雜信息中占據80%以上的比例,由此可見圖像信息是一種不可或缺的傳播媒介[1]。隨著科技水平的不斷提升和各種拍攝設備的普及與日益便攜化,圖像在人類社會中發揮著愈發重要的作用,每個人都在成為圖像的創造者與傳播者。然而,受外界照明環境影響或技術條件限制,拍攝的圖像往往會出現曝光不足、對比度低、細節丟失等問題,此類圖像即被稱為低光照圖像。低光照圖像增強技術旨在對低亮度、低對比度、噪聲、偽影等問題進行處理,以改善圖像質量,并在處理過程中盡可能保持圖像的細節特征,以滿足特定場景的需求。

低光照圖像增強方法可以分為傳統基于先驗的方法和基于深度學習的方法。

早期傳統方法主要包括基于直方圖均衡和基于Retinex模型的方法。直方圖均衡方法將圖像的直方圖分布限制在一定范圍內,使其趨近于均勻分布,提高原始低光照圖像的對比度。PIZER等[2]使用累積分布函數來調整圖像的像素值,以使整張圖片的像素強度值均勻化。后續進一步衍生出自適應的直方圖均衡方法。LAND[3]提出的Retinex理論為低光照圖像增強領域奠定了重要的理論基礎。Retinex是一個由視網膜(retina)和大腦皮層(cortex)構成的合成詞。該理論認為捕獲的圖像可以分解成光照圖和反射圖。由于光照圖是隨著外界環境會發生變化的量,而反射圖是物體的本質屬性,因此基于Retinex的方法通常是通過求解反射圖來獲得增強圖像。GUO等[4]基于Retinex提出了低光照圖像增強(low-light image enhancement,LIME)方法,其利用RGB三通道的最大像素值來估算光照圖的像素值,再利用結構先驗調節光照圖進行圖像增強。不同于一般基于Retinex的方法需要同時計算反射分量與光照分量,該方法僅通過預測光照分量,就能達到預期效果,減少了計算成本。

近年來,隨著深度學習的飛速發展,利用深度學習方法進行低光照圖像增強任務取得了開創性的成功,相較于傳統方法,基于深度學習的方法具有更好的準確性、魯棒性和計算效率。根據算法所使用的學習策略,基于深度學習的低光照圖像增強方法又可以分為監督學習、無監督學習與半監督學習等。

在主流的監督學習方法中,低光照網絡(low-light network,LLNet)[5]是第一個采用深度學習方法在低光照圖像增強任務上的成功嘗試。在此模型的基礎上,提出了多分支低光照增強網絡(multi-branch low-light enhancement network,MBLLEN)[6]和邊緣增強多曝光度融合網絡(edge-enhanced multi-exposure fusion network,EEMEFN)[7]等方法。WEI等[8]提出的Retinex網絡(Retinex network,Retinex-Net)將Retinex理論與深度網絡結合起來。FAN等[9]在Retinex模型中融入語義信息,使用語義信息來引導反射分量的重建并估計噪聲,進一步提升增強效果。盡管上述方法能夠取得較好的增強效果,但由于此類方法只能使用合成的數據進行訓練,而真實數據和合成數據間存在的領域鴻溝會導致這類方法在真實數據上泛化性差。為此,一些方法開始探索采集真實數據用于網絡訓練或生成更加真實的訓練數據。CHEN等[10]建立了一套真實的低光照圖像數據集,并訓練網絡尋找從低光照圖像到長曝光高質量圖像的映射。CAI等[11]建立了一個多曝光度圖像數據集,稱之為單一圖像對比度增強(single image contrast enhancement,SICE),不同曝光的低對比度圖片有其對應的高質量參考圖片,這些參考圖片是通過不同方法增強后擇優選出的。

為解決在合成數據集上訓練成對數據可能導致的過擬合和泛化性差等問題,JIANG等[12]提出了低光照圖像增強領域中第一個基于非成對數據訓練的照亮生成對抗網絡(enlighten generative adversarial network,EnlightenGAN)。GUO等[13]提出了零參考深度曲線估計(zero-reference deep curve estimation,Zero-DCE)方法,將低光照圖像增強重新定義為圖像特定曲線的估計問題,而非建立低光照圖像到正常圖像的映射問題。

為了同時兼具監督學習與無監督學習兩者的優點,YANG等[14]設計了一種基于半監督學習框架的深度遞歸帶狀網絡(deep recursive band network,DRBN)。此方法通過訓練成對數據集來恢復圖像的細節,并采用對抗學習訓練非成對數據集,提高了圖像的光照、顏色等視覺感知質量。

本文將低光照圖像增強任務與人臉識別任務相結合,設計了非成對的低光照人臉圖像增強網絡(low-light face image enhancement network,Low-FaceNet),采用對比學習范式提升模型的泛化性,并在其中加入提取出的高階語義信息,解決了同類型算法可能帶來的局部曝光不均勻等問題,同時能夠有效提升人臉識別任務的性能。

針對目前監督學習方式存在的難以獲取大規模的成對數據集及低光照圖像增強過程的不適定性難題,本文提出了一種非成對的低光照圖像增強方法Low-FaceNet。

1 算法概述

LEE等[15]指出現有方法通常只將圖像增強作為預處理方法,未與下游的高級視覺任務結合起來,從而導致增強后的圖像對視覺任務性能的提升并不明顯,甚至沒有作用。針對上述問題,本文面向人臉識別應用,提出一種以人臉識別任務為驅動的非成對低光照圖像增強網絡,稱為Low-FaceNet,將低階圖像增強任務與高階人臉識別任務結合起來,以聯合學習的方式優化2個任務,使其相互促進。Low-FaceNet主干采用基于U-Net結構的圖像增強網絡,使用對比學習,融入高階語義信息,增強圖像的同時提升人臉識別的準確率。

圖1為本文提出的低光照圖像增強方法Low-FaceNet的網絡架構圖,使用對比學習損失、特征保持損失、語義亮度一致性損失和人臉識別損失函數共同約束網絡的訓練。

圖2為低光照圖像增強主干網絡的層次結構圖,采用基于U-Net的網絡架構,其中包含7個卷積、激活模塊和8個迭代增強模塊,采用端到端的方式訓練網絡。

圖1 Low-FaceNet網絡架構圖

圖2 低光照圖像增強網絡層次圖

2 基于對比學習的低光照圖像增強網絡

現有基于深度學習的低光照圖像增強方法大都采用監督學習方式,需要使用帶有標簽的數據進行訓練,即同時需要低光照和其對應的正常光照圖像。然而受環境光和相機參數的影響,在同一場景同時獲得低光照和正常光照的圖像十分困難。因此,本文采用對比學習范式,直接基于真實世界正常光照/低光照圖像構建正/負樣本,并利用對比學習在特征空間中將增強后的圖像與正樣本拉進,從而遠離負樣本。所提出的對比學習框架借助提取的特征信息保留了增強圖像中不同尺度的細節信息,并利用高階語義信息解決了增強圖像中可能存在的曝光不均勻問題。最后,將低光照圖像增強與人臉識別任務相結合,采用人臉識別損失使增強后的結果能有效提升識別準確率,從而實現了完整的低光照圖像增強流程。

2.1 基于對比學習的亮度恢復

對比學習的基本思想是在特征空間中學習一種特征表示,將相關聯的特征(正樣本)拉近,同時遠離不相關的特征(負樣本),從而學習到不同樣本間的特征表示,更好地服務于目標任務。對于低光照圖像增強任務,對比學習可表示為

其中,I為增強圖像;I為正樣本(正常光照圖像);I為負樣本(低曝光圖像);為Gram矩陣;為平均亮度值;為距離。式(1)表示基于對比學習的特征恢復;式(2)表示基于對比學習的亮度恢復。

本文采用預訓練好的Vgg-16網絡來提取圖像特征,使用Gram矩陣定量描述圖像的潛在特征

為了從低光照圖像中更好地恢復出正常光照圖像,本文采用真實世界非成對的正常光照圖像和低光照圖像作為正負樣本,并通過對比學習范式將增強后的圖像的特征與正樣本進行拉近,同時遠離負樣本。其示意圖如圖3所示。

圖3 對比學習示意圖

因此,對比學習損失可以表示為

其中,α和β為常數,在訓練時分別被設置成0.04和0.30,λλ分別為相應損失的權重系數,在訓練時分別被設置成1.0和1.4。

LI等[16]指出對比學習范式用于視覺任務中,能通過隨機性學習到更多信息。為進一步提高模型的魯棒性,本方法在訓練過程中,每次迭代都隨機選取正負樣本。

2.2 語義亮度一致性約束

為更好地保留增強圖像的細節特征,本文考慮利用高階語義信息來指導網絡進行訓練,提出了一種語義亮度一致性損失,該約束可以保證增強圖像中相同的語義類別亮度保持一致。此外,采用該約束也能在一定程度上解決增強后圖像存在的局部曝光不足和曝光過度問題。

在真實場景中,屬于同一語義類別下的像素通常分布在相鄰的位置,并且應該具有相似的亮度水平,而現有的低光照圖像增強方法往往使得增強圖像出現局部曝光不均勻的問題?;诖爽F象,本文定義了每個語義類別中像素的平均亮度為即

其中,為語義標注真值圖片中包含的語義類別數量;p為第個語義類別的類別真值;q為第個語義類別的類別預測值,其權重系數為1.0。

2.3 特征保持約束

鑒于感知損失(perceptual loss)可以使經過處理后的圖像與原始圖像在感知上保持一致,本文使用感知損失使圖像在增強前后的特征保持一致。特征保留損失為

其中,(I)為輸入圖像第l層的特征映射;(I)為經過網絡增強后的圖像在第l層的特征映射。

在低光照圖像增強領域中,尤其需要關注顏色的自然性。BUCHSBAUM[17]于1980年提出基于灰色世界的顏色恒定假設,即3個通道的像素平均值往往具有相同的數值。本文基于這一假設提出一種顏色一致性損失L,其限制了3個通道像素值的比例,以防止增強圖像中出現顏色偏差問題。其表達式為

其中,為圖片的通道,可取值范圍為{R, G, B};(,)為一組通道;為增強圖像的通道的像素平均值。

此外,為避免相鄰像素之間出現急劇變化,本文還使用總變分損失(TV loss)促進增強圖像的空間平滑性。其表達式為

感知損失L、顏色一致性損失L與總變分損失L共同組成了特征保持損失,即

其中,λ,λ,λ為相應損失的權重系數。在實驗中,將λ的值設置為1.0,λ的值設置為1.0,λ的值設置為200以達到最佳的實驗結果。

2.4 人臉識別約束

為了使低階的低光照圖像增強任務能夠更好地服務于高階人臉識別任務,本文提出了以人臉識別任務為驅動的深度學習框架。首先使用正常光照的人臉數據集預訓練識別網絡,然后將其引入到低光照圖像增強網絡中作為一個子模塊,并固定其權重,輔助低光照圖像增強主干網絡的訓練。

鑒于交叉熵損失函數已廣泛應用于各種分類任務中,而人臉識別任務本質上也屬于分類任務,因此本文采用交叉熵損失函數作為人臉識別任務的損失函數。

人臉識別的具體流程如圖4所示。首先將訓練集中包含的每個人都選一張人臉圖像放入人臉數據庫中;然后進行編碼,編碼結果包括人名和人臉特征的2個部分,其中人臉特征的編碼需要使用人臉檢測網絡與人臉識別網絡實現;接下來將當前待識別的人臉圖像通過人臉識別網絡,得到當前待識別人臉圖像的特征向量,并將此特征向量與先前數據庫中編碼得到的人臉特征計算余弦距離,并將余弦距離最大值所對應的索引作為預測結果,其真值為當前人臉的實際身份在人臉數據庫中的索引。

圖4 人臉識別流程圖

通過余弦距離與身份真值即可計算出人臉識別損失,即

其中,為人臉數據庫中包含的人臉總數;p為人臉身份真值;q為人臉身份預測值,其權重系數為1.0。

2.5 總損失

本文設計的低光照圖像增強網絡Low-FaceNet在訓練過程中由上文所述的4項損失函數共同約束,分別為對比學習損失L、語義亮度一致性損失L、特征保持損失L以及人臉識別損失face??倱p失函數為

其權重系數均為1.0。

3 人臉識別應用

從門禁解鎖、電子支付到高鐵安檢、醫院就醫等,人臉作為生物特征逐漸成為人們進入萬物互聯世界的數字身份證。人臉檢測與識別具有廣闊的發展前景,從2005年左右,人臉檢測技術逐漸邁入實際應用階段,在數碼相機與數字監控等應用領域興起。2014年,隨著深度卷積神經網絡技術的逐漸發展,人臉識別技術逐漸成熟,并在安全、金融、民生、政務等諸多領域得到了應用[18]。

3.1 人臉檢測

人臉檢測是在給定圖像上定位并標注出人臉所在位置的技術,是后續進行人臉識別、人臉解析等相關任務的必要前提步驟。本文使用由Insightface團隊提出的one-stage人臉檢測網絡RetinaFace[19]進行人臉檢測,使用了大規模人臉檢測數據集WIDER FACE[20]進行預訓練。

為了解決人臉檢測中多尺度的問題,RetinaFace算法的特征提取網絡使用FPN特征金字塔結構,可以有效改善模型的小尺度檢測性能,且幾乎不需要增加計算量。圖5共使用了從2到6特征金字塔的5個等級。2到5是由相應的殘差連接網絡的輸出特征圖(2至6)分別自上而下和橫向連接計算得到的,6是5采用步長為2、大小為3×3的卷積核進行卷積采樣得到的。1到5使用了預訓練于ImageNet-11數據集的ResNet-512網絡的殘差層,通過Xavieer方法隨機初始化6的卷積層[21]。

圖5 RetinaFace網絡結構

3.2 人臉識別

人臉識別使用谷歌團隊于2015年提出的FaceNet[22]網絡,由于同一人臉在不同的角度或姿態條件下,圖像的內聚程度較高,而不同人臉圖像之間的耦合程度較低。因此,采用卷積神經網絡將人臉映射到歐式空間的特征向量上,訓練時基于同一個體的人臉距離總是比不同個體的人臉距離小這一先驗知識。圖6為FaceNet人臉識別網絡的總體流程圖。

圖6 FaceNet人臉識別網絡流程圖

具體來說,本文使用經過圖像剪裁、人臉校正的CASIA-WebFace[23]數據集預訓練人臉識別網絡FaceNet,其主干網絡用于提取特征。原始的FaceNet使用Inception-ResNetV1作為主干特征提取網絡,本文使用MobilenetV1網絡,該網絡是Google提出的一種輕量級深層神經網絡,主要應用于手機等嵌入式設備,其核心思想是深度可分離卷積塊。深度可分離卷積塊包括深度可分離卷積(通常設置為3×3)和1×1普通卷積2個部分,深度可分離卷積相比于普通的3×3卷積使用的參數量更小,主要用于特征提取,通道數的調整則依賴于1×1的普通卷積。

將通過特征提取主干網絡得到的特征層進行平均池化、全連接,可以得到一個128維的特征向量。接著進行2標準化,其作用是使得不同個體人臉的特征向量處于同一數量級,便于后續的特征比對。首先需要計算2范數,或稱為歐幾里得范數,即向量元素絕對值的平方之和再開方

2標準化即將向量中的每個元素除以2范數。

FaceNet使用三重態損失(triplet loss)作為損失函數,即為

其中,為待識別圖像通過網絡得到的128維人臉特征向量;為與待識別圖像屬于同一個體的圖像通過網絡得到的128維人臉特征向量;為與待識別圖像屬于不同個體的圖像通過網絡得到的128維人臉特征向量;為歐幾里得距離。本文希望網絡學習到同一個體不同圖像的人臉特征向量之間的歐幾里得距離盡可能接近,而不同個體圖像的人臉特征向量之間的歐幾里得距離盡可能遠離。

但是,網絡在僅使用三重態損失進行訓練的情況下難以收斂,于是本文額外使用了交叉熵損失,表達式見式(11),用于輔助網絡收斂。二者共同構成了人臉識別網絡訓練的損失函數。

4 實驗及結果分析

為了從多方面對本文提出的低光照圖像增強方法Low-FaceNet進行評價,在選擇數據集時考慮了數據的多樣性與質量情況。在實驗中,首先對語義分割子模塊進行性能評價,接著對任務驅動技術的有效性進行驗證;之后進行對比實驗,從可視化結果和量化指標結果2個方面驗證本方法的優越性;最后進行消融實驗,驗證本文提出的模塊、損失函數及所使用的對比學習負樣本的有效性,并定量分析各個部件對實驗結果的貢獻大小。

4.1 數據集與實驗設置

4.1.1 數據集

LaPa[24]是京東人工智能發布的數據集,共有22 176張彩色圖像,以及與之對應的語義標簽圖像和關鍵點信息。其中,訓練集、驗證集、測試集分別有18 176,2 000和2 000張圖像。此數據集用于訓練語義分割網絡DeepLabV3+[25]。由于LaPa數據集中人名標簽存在很多謬誤,需要手動挑選改正。原始的訓練集經過挑選改正,并劃分訓練集與測試集。改正后的訓練集有4 000張,其中包含2 185組人臉圖像,有1 146組包含多張同一個體的圖像;測試集有1 789張圖像,其中包含1 313組人臉圖像,有362組包含多張同一個體的圖像。本文將挑選改正后的數據集稱為LaPa-Face,暗化處理之后用于訓練低光照圖像增強主干網絡。

CelebA-HQ數據集是高分辨率的人臉圖像數據集。從中挑選了360張圖像作為對比學習的正樣本,并對圖像進行暗化處理,得到對應的360張曝光不足的圖像作為負樣本。此外,在測試階段另外挑選1 000張圖像作為評價增強圖像質量的標準圖像,經過暗化處理之后作為測試數據集。

WIDER FACE[20]是人臉檢測的一個基準數據集,該數據集共計有393 703個帶標注的人臉,32 203張圖像。其中,訓練集有158 989個標注人臉,驗證集有39 496個標注人臉,用于訓練人臉檢測網絡RetinaFace[19]。

CASIA-WebFace是當時數據量最大的公開人臉識別數據集,總計10 575個人臉,494 414張圖像。本文使用經過剪裁和校正之后的數據集訓練人臉識別網絡FaceNet,此外,為了驗證人臉識別任務驅動方案的有效性,將經過人臉剪裁和校正的數據集暗化處理后再次訓練人臉識別網絡。

LFW數據集中共有13 000余張人臉圖像,其中有1 680組包含2張及以上同一個體的人臉圖像,在評價人臉識別算法的性能方面有廣闊的應用。在本文中用于評價人臉識別的性能并測試低光照圖像增強方法對于人臉識別任務準確率的提升情況。

CASIA-FaceV5是由500個人組成的亞洲人臉數據集,其中每個人包含5張圖像,共計2 500張圖像。本文僅使用數據集第一部分的100個人,共500張作為測試集。

4.1.2 實驗設置

本文在一臺配備了Intel(R) Core(TM) i7-4770 CPU (主頻3.40 GHz),16.0 GB DDR3內存和NVIDIA GeForce GTX TITAN X的臺式計算機上進行實驗。將訓練集的圖像重新調整變換成384×384大小的圖片。將訓練過程的epoch設置為50,batch size設置為2,學習率固定設置為0.000 1,模型基于PyTorch框架實現,使用Adam優化器。數據集的暗化處理是通過將圖像的像素值整體下調一定的比例實現的。

4.2 語義分割網絡性能評估

作為本文提出的低光照圖像增強網絡中的一個子網絡,語義分割網絡提供的語義高階信息更好地引導了低光照圖像增強網絡的訓練過程。在本節中,對語義分割模塊進行定性和定量的評價。

4.2.1 可視化結果

圖7和圖8為語義分割網絡的可視化結果。由可視化結果可以看出,本文訓練的語義分割網絡可以正確地進行語義分類。

圖7 語義分割預測結果示例1((a)輸入;(b)預測;(c)真值)

圖8 語義分割預測結果示例2((a)輸入;(b)預測;(c)真值)

4.2.2 量化結果

本文使用像素準確率(pixel accuracy,PA)、平均像素準確率(mean pixel accuracy,MPA)、平均交并比(mean intersection over union,MIoU)、加權交并比(frequency weighted intersection over union,FWIoU)等4項準確率評價指標評估所訓練的語義分割網絡的性能。共訓練100個epoch,在每個epoch訓練完成后使用4項指標進行評價,根據指標數值選擇第96個epoch的結果作為最終結果。表1為語義分割網絡epoch 96的準確率評價指標結果。

4.3 以人臉識別任務驅動的有效性驗證

為驗證本文以人臉識別任務作為驅動的低光照圖像增強方法的有效性,特提出了如下驗證方案:首先,使用正常光照的原始訓練數據集訓練人臉識別網絡,記為FaceNet1,同樣使用正常光照的測試數據集通過此人臉識別網絡,計算人臉識別準確率,作為人臉識別準確率上限;然后,使用暗化處理之后的低光照訓練數據集訓練人臉識別網絡,記為FaceNet2,同樣使用暗化處理之后的低光照測試數據集通過此人臉識別網絡,計算人臉識別準確率,作為人臉識別準確率下限;之后,使用不同的增強方法對低光照數據集進行增強,將增強結果通過FaceNet1(因為此時是接近于正常光照的圖像),計算人臉識別準確率。若此時得到的人臉識別準確介于人臉識別準確率上、下限之間,就能夠說明本方案的有效性。

表1 語義分割準確率評價指標結果

本文分別在3個測試數據集上進行了人臉識別準確率的測試,分別為LaPa-Face數據集的測試部分、CASIA-FaceV5 (僅使用第一部分的500張圖像)以及LFW數據集(下同)。為敘述方便,將亮訓練、亮測試(上限)的情況標記為up,將暗訓練、暗測試(下限)的情況標記為low,得到的人臉識別準確率對比結果見表2。

表2 任務驅動方案有效性驗證實驗結果(%)

由表2可知,本文方法對輸入的低光照圖像進行增強后,再通過人臉識別網絡FaceNet1計算的人臉識別準確率介于上文所述的準確率上、下限之間,并且與準確率上限之間的差距較小,可說明本文提出的以人臉識別任務驅動方案的有效性。

4.4 對比實驗

4.4.1 可視化結果

據本文調研,現有的低光照圖像增強方法大都基于自然場景圖像的增強,不能直接將這些方法應用于人臉數據集,進行對比實驗時,需要將每種方法通過本文提出的人臉數據集LaPa-Face重新訓練后再進行比較。本文選取Zero-DCE[13]方法、RUAS[26]方法與本方法進行比較。Zero-DCE方法是基于深度卷積神經網絡的方法,與本文方法使用相同的低光照圖像增強主干網絡;RUAS方法則是將傳統的Retinex方法與深度學習相結合的典型方法。圖9和圖10為對比實驗的可視化結果。

圖9 對比實驗可視化結果對比示例1

圖10 對比實驗可視化結果對比示例2

由以上可視化結果對比可以看出,Zero-DCE方法丟失了許多細節信息,并且存在曝光過度問題;RUAS方法雖然能較好地保持圖像的色彩與細節,但存在局部曝光的問題(如面部),不利于人臉識別系統的面部識別;而本文方法在增強圖像的同時能夠保持圖像中各種尺度的細節信息。

4.4.2 人臉識別準確率對比

表3為對比實驗的人臉識別準確率結果。

表3 對比實驗人臉識別準確率對比(%)

注:加粗數據為最優值

由表3可知,本文方法在3個測試數據集上的人臉識別準確率基本優于其他方法。其中RUAS在CASIA-FaceV5上的準確率略高于本文方法,經過分析,其原因在于此數據集的平均亮度處于較低的水平,而RUAS方法使得一般的增強圖像出現曝光過度問題,導致此數據集的增強結果較為合適,從而人臉識別的準確率較高。

4.4.3 圖像質量評價指標對比

除了人臉識別準確率的對比,本文同樣關注增強圖像的質量。圖像質量評價指標有全參考與無參考之分,全參考評價需要使用與待評價圖像對應的標準圖像作為參考,而無參考意為僅根據待評價圖像自身的信息進行評價。本文使用全參考圖像質量評價指標峰值信噪比(peak signal to noise ratio,PSNR)與結構相似性(structural similarity index,SSIM),以及無參考圖像質量評價指標統一無參考圖像質量和不確定性評估器(unified no-reference image quality and uncertainty evaluator,UNIQUE)來評價增強圖像的質量。在高分辨率的CelebA-HQ數據集上選取1 000張圖像作為測試集進行測試(下同),得到的圖像質量指標對比情況見表4。

表4 對比實驗圖像質量評價指標對比

注:加粗數據為最優值

由表4可知,本文方法在3個圖像質量評價指標上的表現均明顯優于其他方法。本文提出的低光照圖像增強方法能夠在增強圖像的同時保持圖像各種尺度的特征,使得增強圖像的質量更佳。

4.4.4 模型泛化性驗證實驗

為探究本文采用的數據集暗化處理方式是否存在局限性,導致在該數據集下訓練的模型泛化能力差,本文重新采用Gamma校正方式對測試集圖像進行暗化處理,并使用在原數據集下訓練的模型對其進行增強處理,結果如圖11和圖12所示。

圖11 Gamma校正方式可視化結果對比示例1

由圖11和圖12可見,更換不同的暗化處理方式后,在不重新訓練模型的情況下,本文方法仍然可以較好地進行亮度增強,相比于其他方法,更優地保留了圖像細節的顏色和結構特性。

此外,為進一步驗證本文方法在真實暗光場景下的泛化性,選取了2張真實世界暗光圖像并通過不同方法對其進行增強處理。圖13和圖14為真實暗光圖像的增強可視化對比結果,圖像均采集于網絡??梢?,本文方法在處理真實場景圖像時依然可以得到高質量的增強圖像,色彩和保真度明顯優于其他方法。而使用Zero-DCE方法增強后的圖像出現了明顯的細節模糊問題,RUAS方法出現了局部曝光不均勻問題。本實驗充分驗證了本文方法可以有效地應對真實世界的暗光場景,具有較好的泛化能力。

圖12 Gamma校正方式可視化結果對比示例2

圖13 真實暗光場景可視化結果對比示例1

圖14 真實暗光場景可視化結果對比示例2

4.5 消融實驗

為了驗證本文提出任務驅動型低光照圖像增強網絡框架中各個部件的有效性,還進行對比學習模塊(標記為NoM)、語義分割模塊(標記為NoM)的模塊消融性分析,并進行特征保留損失(標記為NoL)、人臉識別損失(標記為Noface)的損失函數消融性分析,定量分析各個模塊與損失函數的貢獻大小。此外,為探究對比學習負樣本的有效性,采用無負樣本訓練(標記為NoS)與原始結果對比驗證。實驗結果從視覺效果與量化分析兩個方面進行對比分析。

4.5.1 可視化結果

圖15和圖16為使用本文方法與去掉模塊/損失函數的方法對圖像進行增強的可視化結果對比情況。圖17為使用本文方法與去掉對比學習負樣本的方法進行可視化結果對比示例。

圖15 模塊/損失函數消融實驗可視化結果對比示例1

圖16 模塊/損失函數消融實驗可視化結果對比示例2

圖17 負樣本消融實驗可視化結果對比示例

由圖15和圖16中可視化結果對比可以看出:NoM去掉對比學習模塊之后增強結果仍然很暗,說明基于對比學習進行亮度恢復的有效性;NoM去掉語義分割模塊之后增強圖像中出現了局部區域曝光過度的現象,說明引入語義信息對于保證圖像中相同語義類別下的亮度一致的有效性;NoL去掉特征保持損失之后增強圖像中丟失部分細節信息,部分區域呈現藍色,說明特征保持損失對于保留圖像細節特征的有效性;Noface去掉人臉識別損失與Ours的方法對圖像進行增強的結果相差不大,但其能夠有效地提升人臉識別的準確率,且對于人臉圖像的增強質量有一定程度的促進作用。由圖17(b)與(c)可視化結果對比可以看出:去除對比學習負樣本之后的訓練結果難以正確恢復圖像亮度,增強圖像的整體亮度仍處于較低的水平。

4.5.2 人臉識別準確率對比

表5為消融實驗的人臉識別準確率對比情況。

表5 消融實驗人臉識別準確率對比(%)

注:加粗數據為最優值

由表5可知,本文提出的2個模塊、2項損失函數與采用的對比學習負樣本對于人臉識別準確率的提升起到了不同程度的促進作用。其中M,M,LS用于亮度增強、曝光度控制與細節的保持和恢復,通過增強圖像來提升人臉識別的性能,而face是通過任務驅動技術,直觀地從網絡中學習提升人臉識別準確率的信息,從而進一步提高了準確率。

4.5.3 增強圖像質量評價指標對比

表6為消融實驗的增強圖像質量評價指標對比情況。

由表6可知,本文方法在全參考圖像質量評價指標PSNR與SSIM均優于其他方法,框架中的各個模塊與損失函數都對結果起到了不同程度的促進作用。本方法的UNIQUE指標略遜于不加入人臉識別損失的增強方法,但需要注意的是本文更關注人臉識別應用的性能,圖像質量評價只是輔助評價方法。

表6 消融實驗圖像質量評價指標對比

注:加粗數據為最優值

5 結束語

本文針對低光照圖像增強與人臉識別應用提出了一個新穎的非成對低光照圖像增強算法,設計了以人臉識別任務為驅動的低光照圖像增強網絡Low-FaceNet。Low-FaceNet由4個子網絡構成,其中主干網絡是圖像增強網絡,3個子網絡分別為特征提取網絡、語義分割網絡和人臉識別網絡。為解決低光照圖像增強領域中難以獲取大規模的低光照圖像與其對應的正常光照圖像,本文采用了對比學習技術直接從真實世界的正常光照/低正常圖像構建正/負樣本,為網絡訓練提供額外的監督信息。此外,通過特征保持損失、語義亮度一致性損失和人臉識別損失來共同約束圖像增強網絡的訓練。為了讓子網絡能有效地服務于圖像增強網絡的訓練,本文先采用預訓練的方式分別訓練人臉識別網絡和語義分割網絡,然后固定其權重以端到端的方式訓練圖像增強網絡,訓練過程中僅更新主干網絡的參數。

視覺和定量結果均表明,本文方法相較于其他圖像增強方法,得到的增強圖像質量更好,能夠保留圖像中不同尺度的細節特征。此外,本文以人臉識別任務為驅動的方案能夠有效地提升低光照條件下人臉識別的準確率。

本文方法的局限性主要表現在:當使用小規模數據集對網絡訓練時,通常不能取得較好的增強效果,這是因為對比學習范式通常需要大量的樣本對才能獲得良好的性能。此外,當前訓練所使用的數據集圖像質量欠佳,可能會對模型的性能產生一定的影響。在后續工作中,考慮構建一套真實場景下的高質量人臉識別數據集來解決這一問題,并進一步探索本文所提出的學習方案在其他無監督低階視覺任務中的潛力。

[1] 王坤. 基于卷積神經網絡的低光照圖像增強算法研究[D]. 贛州: 江西理工大學, 2020.

WANG K. Research on low light image enhancement algorithm based on convolutional neural network[D]. Ganzhou: Jiangxi University of Science and Technology, 2020 (in Chinese).

[2] PIZER S M, JOHNSTON R E, ERICKSEN J P, et al. Contrast-limited adaptive histogram equalization: speed and effectiveness[C]//The 1st Conference on Visualization in Biomedical Computing. New York: IEEE Press, 1990: 337-345.

[3] LAND E H. The retinex theory of color vision[J]. Scientific American, 1977, 237(6): 108-128.

[4] GUO X J, LI Y, LING H B. LIME: low-light image enhancement via illumination map estimation[J]. IEEE Transactions on Image Processing, 2017, 26(2): 982-993.

[5] LORE K G, AKINTAYO A, SARKAR S. LLNet: a deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017, 61: 650-662.

[6] LV F F, LU F, WU J H, et al. MBLLEN: low-light image/video enhancement using CNNs[C]//The 29th British Machine Vision Conference. Durham: The British Machine Vision Association and Society for Pattern Recognition Press, 2018: 4.

[7] ZHU M F, PAN P B, CHEN W, et al. EEMEFN: low-light image enhancement via edge-enhanced multi-exposure fusion network[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13106-13113.

[8] WEI C, WANG W J, YANG W H, et al. Deep retinex decomposition for low-light enhancement[EB/OL]. (2018-06-08) [2022-05-07]. https://arxiv.org/abs/1808.04560.

[9] FAN M H, WANG W J, YANG W H, et al. Integrating semantic segmentation and retinex model for low-light image enhancement[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2317-2325.

[10] CHEN C, CHEN Q F, XU J, et al. Learning to see in the dark[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3291-3300.

[11] CAI J R, GU S H, ZHANG L. Learning a deep single image contrast enhancer from multi-exposure images[J]. IEEE Transactions on Image Processing, 2018, 27(4): 2049-2062.

[12] JIANG Y F, GONG X Y, LIU D, et al. EnlightenGAN: deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing, 2021, 30: 2340-2349.

[13] GUO C L, LI C Y, GUO J C, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1777-1786.

[14] YANG W H, WANG S Q, FANG Y M, et al. From fidelity to perceptual quality: a semi-supervised approach for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3060-3069.

[15] LEE Y, JEON J, KO Y, et al. Task-driven deep image enhancement network for autonomous driving in bad weather[C]//2021 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 2021: 13746-13753.

[16] LI W B, YANG X S, KONG M H, et al. Triplet is All You Need with Random Mappings for Unsupervised Visual Representation Learning[EB/OL]. (2021-06-08) [2022-04-20]. https://arxiv.org/abs/2107.10419.

[17] BUCHSBAUM G. A spatial processor model for object colour perception[J]. Journal of the Franklin Institute, 1980, 310(1): 1-26.

[18] 孫哲南, 赫然, 王亮, 等. 生物特征識別學科發展報告[J]. 中國圖象圖形學報, 2021, 26(6): 1254-1329.

SUN Z N, HE R, WANG L, et al. Overview of biometrics research[J]. Journal of Image and Graphics, 2021, 26(6): 1254-1329 (in Chinese).

[19] DENG J K, GUO J, VERVERAS E, et al. RetinaFace: single-shot multi-level face localisation in the wild[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5202-5211.

[20] YANG S, LUO P, LOY C C, et al. WIDER FACE: a face detection benchmark[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press,2016: 5525-5533.

[21] 牛作東, 覃濤, 李捍東, 等. 改進RetinaFace的自然場景口罩佩戴檢測算法[J]. 計算機工程與應用, 2020, 56(12): 1-7.

NIU Z D, QIN T, LI H D, et al. Improved algorithm of RetinaFace for natural scene mask wear detection[J]. Computer Engineering and Applications, 2020, 56(12): 1-7 (in Chinese).

[22] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.

[23] YI D, LEI Z, LIAO S C, et al. Learning face representation from scratch[EB/OL]. (2014-06-08) [2022-06-19]. https://arxiv. org/abs/1411.7923.

[24] LIU Y L, SHI H L, SHEN H, et al. A new dataset and boundary-attention semantic segmentation for face parsing[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11637-11644.

[25] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder- decoder with atrous separable convolution for semantic image segmentation[EB/OL]. (2018-06-08) [2022-05-19]. https:// arxiv.org/abs/1802.02611.

[26] LIU R S, MA L, ZHANG J A, et al. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10556-10565.

Face recognition-driven low-light image enhancement

FAN Yi-hua1, WANG Yong-zhen1, YAN Xue-feng1, GONG Li-na1, GUO Yan-wen2, WEI Ming-qiang1

(1. Institute of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210016, China; 2. State Key Laboratory of New Computer Software Technology, Nanjing University, Nanjing Jiangsu 210023, China)

Images are susceptible to external lighting conditions or camera parameters, resulting in overall darkness and poor visualization, which can degrade the performance of downstream vision tasks and thus lead to security issues. In this paper, a contrastive learning-based unpaired low-light image enhancement method termed Low-FaceNet was proposed for face recognition tasks. The backbone of Low-FaceNet was in the form of an image enhancement network based on the U-Net structure, introducing three sub-networks, i.e., feature retention network, semantic segmentation network, and face recognition network, thereby assisting the training of the image enhancement network. The contrastive learning paradigm enabled a large number of real-world unpaired low-light and normal-light images to be used as negative/positive samples, improving the generalization ability of the proposed model in the wild scenarios. The incorporation of high-level semantic information could guide the low-level image enhancement network to enhance images with higher quality. In addition, the task-driven approach made it possible to enhance images and improve the accuracy of face recognition simultaneously. Validated on several publicly available datasets, both visualization and quantification results show that Low-FaceNet can effectively improve the accuracy of face recognition under low-light conditions by enhancing the brightness of images while maintaining various detailed features of the images.

low-light image enhancement; face recognition; contrastive learning; task-driven; semantic segmentation

TP 391

10.11996/JG.j.2095-302X.2022061170

A

2095-302X(2022)06-1170-12

2022-07-29;

:2022-10-10

國家自然科學基金項目(62172218,62032011)

范溢華(2000-),女,碩士研究生。主要研究方向為自然圖像處理。E-mail:fanyihua@nuaa.edu.cn

魏明強(1985-),男,教授,博士。主要研究方向為計算機圖形學、計算機視覺等。E-mail:mingqiang.wei@gmail.com

29 July,2022;

10 October,2022

National Natural Science Foundation of China (62172218, 62032011)

FAN Yi-hua (2000-), master student. Her main research interest covers natural image processing. E-mail:fanyihua@nuaa.edu.cn

WEI Ming-qiang (1985-), professor, Ph.D. His main research interests cover computer graphics, computer vision. E-mail:mingqiang.wei@gmail.com

猜你喜歡
圖像增強人臉人臉識別
一種基于輕量級深度網絡的無參考光學遙感圖像增強算法
人臉識別 等
有特點的人臉
一起學畫人臉
圖像增強技術在超跨聲葉柵紋影試驗中的應用
水下視覺SLAM圖像增強研究
揭開人臉識別的神秘面紗
人臉識別技術的基本原理與應用
三國漫——人臉解鎖
基于圖像增強的無人機偵察圖像去霧方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合