?

基于CLAHE的PCA-LDA典型地域人臉識別研究

2024-01-05 13:22何李蔣行國李嘉利李德才
關鍵詞:特征向量識別率直方圖

何李,蔣行國,2,李嘉利,李德才

(1.四川輕化工大學自動化與信息工程學院,四川 宜賓 644000;2.人工智能四川省重點實驗室,四川 宜賓 644000)

引言

人類學的相關研究表明,中國南方和北方典型地域人臉雖然有年齡、性別的差異,但整體上相同地域內的卻有著同一性[1]。相比南方人,北方人具有頭部更寬,兩下頜角間更寬,且鼻較窄,面較狹等普遍特征[1],這些典型性差異也為人臉地域研究奠定了基礎。

目前人臉特征提取方法有很多,主要包括局部特征提取和全局特征提取兩大類。局部特征提取主要有局部二值模式(LBP)[1]、定向梯度直方圖(HOG)[2]、Gabor濾波特征提取[3]等。全局特征提取主要有主成分分析(PCA)[4]、線性判別分析(LDA)[5]等。而人臉的典型地域特征研究作為人臉識別的一個重要研究方向,通過研究不同地域面部的地域特征,以提高人臉識別的深度,這在刑事偵破、身份識別等領域具有重大應用前景。因此,使用更高效、快捷的方法分析人臉典型地域特征,對人臉地域研究的開展具有重要意義。國外,如Islam等[6]使用各種統計模型分析了面部特征和屬性的地理依賴性。Bessinger等[7]采用一種雙組件生成網絡架構(GPS2Face),通過面部特征合成了世界不同地域可能的人臉。當前,國內的人臉地域特征研究仍停留在提取面部幾何特征以分類不同地域人臉的階段,如李偉紅等[8]對區域內的人臉提取幾何特征進行最小誤差貝葉斯分類,對東北和西南兩大典型區域人臉進行了分類。張紅梅等[9]通過自動提取算法抽取面部幾何特征,再使用感知器算法對華北和西南兩大區域進行了分類。劉嘉敏等[10]通過數碼相機系統將分類區域內的人臉圖像采樣,然后用區域幾何特征識別技術提取特征進行分類。Gong等[11]通過3D數碼相機對按照中國行政區劃分的人臉圖像進行采樣并登記到人臉圖像庫中,再采用幾何方法提取特征識別不同地區人臉。文獻[8-11]為重慶大學智能化信息系統實驗室開展的地域探索性研究,其中文獻[8]對東北地域分類準確率為80.0%,西南分類準確率為72.2%,但實驗數據庫未公開且人臉數據樣本相對較少,仍需要擴大數據樣本進一步研究。

在人臉特征研究中,特征臉作為一種基于主成分分析(PCA)的特征識別技術被廣泛應用,它能夠在減少需要分析的指標的同時,達到使用少量的特征信息進行全面分析的目的。因此,為更充分地獲取反映地域特征的人臉輪廓與五官信息,同時兼顧局部與全局特征,提出使用限制對比度自適應直方圖均衡化(CLAHE)局部增強人臉特征,然后通過PCA算法提取全局特征并降維,并結合LDA 算法縮小樣本類間距離,最后將優化的支持向量機(SVM)用于地域人臉識別,驗證提出的算法在分類地域人臉方面的有效性。

1 限制對比度自適應直方圖均衡化的PCALDA算法

基于限制對比度自適應直方圖均衡化的PCALDA算法系統框架如圖1所示,其算法流程如下:

圖1 系統框架

1)將訓練圖像分割為一系列均勻子塊,通過CLAHE增強局部特征;

2)將處理后的訓練圖像執行PCA 算法,選擇前d個特征值對應的特征向量,歸一化后組成投影向量;

3)將投影向量輸入LDA 算法中,尋找最佳投影方向形成新的投影向量集;

4)測試圖像也先后經過PCA 與LDA 降維生成投影向量;

5)將圖像投影的特征向量集輸入參數優化的SVM進行分類。

1.1 限制對比度自適應直方圖均衡化(CLAHE)

直方圖均衡化是常用于調節圖像對比度的方法,通過一定的變換,使得輸出圖像灰度直方圖達到均勻分布的效果,但原始的直方圖均衡化方法未考慮局部,會導致過度增強從而丟失有用信息。為避免這一問題,采用CLAHE[12],該方法是自適應直方圖均衡化(AHE)的改進,能有效增強人臉局部特征,突出細節信息并減少噪聲的干擾。CLAHE 實現步驟如圖2 所示,首先將原圖像劃分為m×n個局部子區域并計算每個子塊的灰度直方圖,接著對每個子區域進行對比度限制并剪切灰度直方圖,然后將每個超出限幅值的多余像素均分到其他灰度中,使直方圖自適應均衡化,最后通過插值處理得到增強圖像。

圖2 CLAHE實現步驟

分塊子區域越大,丟失的細節信息更多,因此選用劃分8 × 8 的子區域。圖3 所示為原始圖像與采用AHE 和CLAHE 兩種方法的對比圖。從圖3 可知,傳統的自適應直方圖均衡化后生成的圖像與原始圖像對比度明顯提高,但增加了噪聲,而經過CLAHE處理后人臉細節特征明顯增強。

1.2 PCA-LDA算法

PCA 通過降維將人臉轉換為一系列核心特征,即特征臉。將數據從高維空間映射到低維空間,能夠消除樣本之間的相關性與噪聲[13]。設有n張人臉圖像,xi表示第i幅人臉圖像形成的人臉向量,則樣本的均值向量為:

所有樣本的協方差矩陣為:

采用奇異值分解(SVD)求解該協方差矩陣的特征值以及特征向量。由SVD 可知,矩陣S=XXT與矩陣P=XTX具有r個相同的非零特征值,設為λi(i=1,2,…,r),同時令矩陣P和矩陣S的特征向量分別為pi和si,由此得出的正交歸一化特征向量為:協方差矩陣中特征值大小與特征向量息息相關。因此,選擇包含信息最多的特征向量組成子集,即為特征臉空間。

在PCA 后,通過線性判別分析(LDA)優化算法,能使樣本降維的同時,類間離散度更大,類內離散度更小[14]。令總均值向量為c,各類樣本的均值為ci,經PCA 變換后的人臉圖像為aij(aij表示第i類的第j個樣本),總共包括m類,每類有k個樣本。則人臉樣本的類內離散矩陣Sw與類間離散矩陣Sb分別為:

由此可得出特征值λ與對應的特征向量w即最佳投影方向之間關系:

選取n(n為降維后的維數)個最大特征值對應的特征向量W=[w1,w2,w3,…,wn]作為投影方向,該投影矩陣W能很好地表示樣本特征[15]。

1.3 支持向量機(SVM)

支持向量機主要用于二分類問題,其分類思想以樣本與超平面的距離作為確信度,確信度高的相比確信度低的更容易區分[16]。而SVM 目標就是找到一個超平面H使得兩類樣本有效分開,并加大類間距離,分類原理如圖4所示。

圖4 SVM分類原理圖

對于空間中的非線性問題,需要應用核函數技術[16-17]。常用的核函數有如下3 種(其中x與z表示兩個樣本)。

1)高斯徑 向基核函數(RBF):K(x,z)=,參數σ決定了函數作用范圍。

2)多項式 核函數(polynomial):K(x,z)=(γ(x,z)+c)d,其中d為多項式的階,c為偏置系數,γ為核函數寬度。

3)sigmoid 核函數:K(x,z)=tanh(η(x,z)+c),與徑向基函數類似,但需要選擇η和c兩個參數。

核函數參數的選擇需要采用優化算法,因此選用交叉驗證與網格搜索法進行參數尋優[18]。網格搜索法首先對懲罰因子和高斯核函數設定一系列參數,然后使每對參數遍歷模型進行訓練,最終模型參數選用效果最好的一對參數。交叉驗證將訓練數據集均分為k份,每次選取其中一份作為測試數據,總共經過k次訓練。每個模型產生一個性能指標,再對所有性能指標求均值得出模型的最優參數。本文采取網格法設定參數變化范圍,再將不同組合的參數運用交叉驗證。

2 實驗與結果

2.1 實驗設置

2.1.1 實驗數據

由于缺乏能夠采用的公開數據集,因此采取網絡爬取南北典型地域人臉圖片,其中,選取吉林、遼寧、黑龍江等作為典型北方地域,廣東、廣西等作為典型南方地域,所搜集數據能夠保證不同地域的均衡。為標準化人臉,使用機器學習庫Dlib 裁剪人臉,統一裁剪為224×224大小,然后將具有清晰人臉的圖片篩選出,轉換為灰度圖像,最后獲得南方和北方地域各70 組人臉圖像,每組包括10 張圖片。兩個地域分別取前50 組為訓練集,剩下的20 組為測試集,選取測試集數據與訓練集無重合。部分人臉樣本如圖5所示。

2.1.2 實驗環境

實驗環境硬件平臺為Windows 10,64 位操作系統,內存為8 GB,NVIDIA GeForce GTX 1050Ti和 Intel(R) Core(TM) i5—10400F CPU @ 2.90GHz,軟件為python3.6、Pytorch深度學習框架。

2.2 基于CLAHE的特征臉分析

將訓練數據中的圖像進行CLAHE 增強,使圖像局部特征更明顯,再將其轉換為向量形式投影到新的特征空間。

地域特征臉對比如圖6 所示,圖中9 張人臉圖像為降低維數后產生的“特征臉”,圖6(a)所示為原始PCA 所生成,圖6(b)所示為PCA 結合AHE 后產生的“特征臉”,而經過CLAHE 局部增強后的“特征臉”如圖6(c)所示,可以看出,經過兩種直方圖均衡化后,面部都有一定的增強,而圖6(c)相比圖6(b)五官輪廓更加清晰,能更好地表示出該類人臉所包含的地域特征。

圖6 地域特征臉對比

實驗通過主成分分析提取不同個數的特征向量,然后使用SVM 進行分類預測。核函數選用RBF,參數c和gamma運用Sklearn庫的Grid-SearchCV 函數進行網格搜索法尋優,參數范圍設置為:

表1 和圖7 所示為選取不同特征向量經過SVM分類的識別率,由此可看出原始PCA 算法識別率最高達到了64.0%。結合AHE 的PCA 算法在取前300個特征向量時最高識別率達到65.5%,而結合CLAHE 的PCA 算法隨特征向量增加識別率總體上升,在取前300 個特征向量時識別率達到了68.5%,特征向量超過300 后準確率下降。因此,CLAHE 算法能夠增強人臉地域特征,再結合PCA 算法,提取的特征更有表現力,識別率有明顯提高。

表1 PCA改進算法不同特征向量下識別率 %

圖7 不同算法的識別率

2.3 基于CLAHE的PCA-LDA算法

經過PCA 降維后,加入LDA 能彌補PCA 不能獲取樣本類別信息的缺點,并能對樣本再次降低維度。設定PCA 取前300 個特征向量,LDA 依次選取不同的特征向量,隨著特征向量的增加,識別率先呈上升趨勢,當特征向量取120 時獲得最大平均識別率為70.5%,之后隨著特征向量增加準確率逐漸降低,實驗結果如圖8所示。

圖8 LDA取不同特征向量與識別率的關系

通過設置多個實驗,對比提出的算法與其他經典算法對典型地域特征的分類準確率,其中,分類器SVM 設定同一參數,實驗結果見表2。由表2 可知,實驗1~3 的局部二值模式(LBP)與方向梯度直方圖(HOG)所提取的特征信息量少,用于分類地域人臉準確率大大低于PCA 算法;實驗4~7 與提出算法進行消融實驗對比,驗證了提出算法的有效性。結合南方和北方典型地域混淆矩陣(圖9)觀察算法在各個類別上的表現,混淆矩陣的行標簽表示預測值,列標簽表示真實值,可以看出,該算法在南方和北方典型區域的分類識別率分別達到64.0%和77.0%。

表2 不同實驗平均準確率 %

圖9 南方和北方典型地域混淆矩陣

3 結束語

人臉典型地域特征研究在理論和應用方面都具有廣闊的前景,通過構建一個中國南北典型地域的人臉數據集,并從全局與局部特征的角度進行了分析。為增強提取的地域特征信息,使用CLAHE技術增強人臉圖像的局部對比度并降噪,之后通過PCA 算法將高維空間人臉圖像投影到低維空間,獲得特征臉,再結合LDA 算法尋找最佳投影方向,最后運用優化參數的SVM 分類器進行分類。最終結果表明,相較于其他傳統算法,本文提出的算法能更有效地分類地域人臉。

猜你喜歡
特征向量識別率直方圖
二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
符合差分隱私的流數據統計直方圖發布
克羅內克積的特征向量
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
用直方圖控制畫面影調
提升高速公路MTC二次抓拍車牌識別率方案研究
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合