?

基于改進InfoGAN的字體多風格融合模型

2024-03-25 01:58陳芯芯王江江
大連民族大學學報 2024年1期
關鍵詞:風格特征字體向量

陳芯芯,王江江

(大連民族大學 a.計算機科學與工程學院; b.大連市漢字計算機字庫設計技術創新中心遼寧 大連 116650)

漢字是一種內涵豐富、外觀多樣化的字符系統,由于漢字的形狀與書寫風格多樣,對漢字多風格特征抽取后融合難度較大。在完成字體圖像多風格遷移融合學習過程中,并不需要關注圖像的所有特征,只需要關注字體圖像的風格特征,此時如果可以把字體的風格特征從整體維度中解耦融合出來,就能更好地控制生成效果。InfoGAN[1]的設計目的就是將這些雜亂無章的特征清晰化規律化,通過解耦方式將多風格特征融合出來以控制圖像的生成。

多風格字體融合生成技術研究意義重大,Yunjey Choi等人[2]提出了多個域之間圖像轉換的StarGAN模型,以解決生成過程中圖像域的可拓展性和魯棒性較差問題;李金金等人[3]提出了IBN-Net,將實例標準化和批標準化結合形成殘差網絡的基礎模塊,實現了多種風格域的無監督字體風格遷移;Xiaoxue Zhou等人[4]在多尺度內容和風格特征融合的基礎上,構建了一個風格傳輸網絡,可以同時完成多個字體的風格遷移;陳丹妮等[5]提出了一種SSNet網絡,結構網絡和語義網絡負責源域字體特征的提取,可提高生成多風格漢字圖像的質量;Jianwei Zhang等人[6]提出了一種結構語義網(SSNet)的漢字排版生成方法,該方法利用結構模塊中解開的筆畫特征,語義模塊中預先訓練的語義特征來生成多風格目標圖像;Licheng Tang等[7]提出了一種通過學習細粒度的局部樣式和空間對應關系的內容和參考字形,使用交叉關注機制關注參考字形中局部樣式和細粒度樣式表示的方法,生成多風格樣式融合的字體圖像。

本文通過改進深度學習的現有模型多風格融合出生成字體圖像的關鍵風格特征,通過控制多風格融合出的關鍵風格特征,進行不同字體風格特征的融合。

1 改進的InfoGAN特征多風格融合模型

本文InfoGAN[1]是在傳統的生成對抗網絡(GAN)基礎上加入了一個額外的噪聲向量,可以用來融合輸入圖片的多風格特征。通過將噪聲向量分解為多個部分,每個部分對應于輸入圖片的不同特征,可以使生成器生成更多樣化的圖片。

具體來說,InfoGAN的生成器輸入由三部分組成:噪聲向量(Latent Code)、條件向量(Conditional Code)和分類向量(Class Code)。其中,噪聲向量和條件向量是原始GAN中的輸入,分類向量是額外加入的向量。在訓練過程中,分類向量是由判別器預測得到的,用于指導生成器生成具有特定類別的圖片。通過對噪聲向量分解,可以將其分成兩部分:一個部分用于控制輸入圖片的全局特征,例如位置、角度等;另一個部分用于控制輸入圖片的局部特征,例如顏色、紋理等。這樣,生成器就可以根據噪聲向量的不同部分生成具有不同全局和局部特征的圖片。

本文在InfoGAN原有基礎上,修改了輸入向量的維度,增加了通道注意力模塊,使其可以融合出更多字體圖像的相關特征,針對大小寫英文字母的網絡模型如圖1。

圖1 改進的InfoGAN特征多風格融合網絡模型

輸入向量的“固定”部分包含離散和連續兩部分,針對52位大小寫英文字母數據集,本文將離散的潛碼數保持原模型的1位不變,離散潛碼的維度由10維改為52維,連續潛碼數由2位變為5位;針對中文數據集,選取常用的500個漢字圖像,將離散的潛碼數保持原模型的1位不變,離散潛碼的維度由10維改為500維,連續潛碼數由2位變為5位。添加的通道注意力模塊由一個自適應的平均池化層和兩個全連接層組成。具體的網絡結構見表1。

表1 改進的InfoGAN網絡結構

1.1 字體圖像特征多風格融合

基于InfoGAN的多風格融合的核心是分離特征或者提取特征。神經網絡中的神經元以某種方式單獨學習完整的概念,一個神經元可能學會特定的物體,而不明顯依賴于其他神經元。通常,學習到的特征往往是混雜的,它們在數據空間中以一種無序而復雜的方式被編碼。如果這些特征是可以分解的,那么這些特征就更容易理解,就可以更方便的使用這些特征進行編碼如圖2。

圖2 InfoGAN的特征解耦示意圖

改進的InfoGAN可以最大化相互信息以用來可學習表示,分離離散的和連續的潛在因素從而擴展到復雜的數據集,并且不需要太多訓練時間。

InfoGAN可以通過無監督的方式學習到數據的高層語義特征,并且可以通過控制隱變量來生成具有不同特征的數據。其中生成器的輸入被分成了兩部分:隨機噪聲Z和由多個隱變量構成的Latent Code、c,即可解釋的隱變量。其中,c有先驗的概率分布,可以是離散數據,也可以是連續數據,用來表示生成數據的不同特征。通過改變離散特征表示(Categorial Latent Code),可以生成不同種類的字母或漢字。通過改變連續特征表示(Continous Latent Code),可以生成不同風格的字母或漢字。

1.2 通道注意力模塊

基于CNN的通道注意力[8]是一種注意力機制,它可以根據每個通道的重要程度,來增強有用的特征,減弱無用的特征。

本文的通道注意力模塊如圖3。具體來說,輸入一個H×W×C的特征F,首先,對每個通道的特征圖分別進行全局最大池化和平均池化,得到兩個1×1×C的向量。然后,用一個共享的兩層全連接網絡把這兩個向量非線性變換成另外兩個1×1×C的向量。其次,把這兩個向量加起來并用一個Sigmoid激活函數,得到一個1×1×C的權重系數向量Mc。最后,將Mc乘以輸入的特征F,得到一個新的特征。

圖3 通道注意力模塊

1.3 損失函數

為了保證生成圖像的生成質量和細節特征,本文設計了五種損失函數,模型訓練時使用不同損失函數的線性組合。

Dversarial Loss[9]:最終的優化目標是讓生成器Ladν最小,判別器Ladν最大,對抗損失Ladν如公式(1)所示:

Ladν=Ex∈pdata[logD(x,y)]+Ez∈pinput[log(1-D(G(x)))]。

(1)

Self Rebuilding Loss[10]:為了保證字體圖像編碼和解碼過程中沒有信息丟失或模型引起失真,改進的InfoGAN模型應具有自我重建的能力,即能夠根據編碼器提取的結構和風格信息重新生成原圖像。自重建損失Lrec如公式(2)所示:

(2)

Consistency Cycle loss[11]:由于InfoGAN采用無監督訓練方式,生成的增強圖像可能會丟失原始圖像的結構信息。因此,采用了循環一致性損失,以保證增強前后圖像的結構盡量相似,具體如公式(3)所示:

(3)

Consistent Style Loss[12]:為了生成的清晰和失真圖像與原圖保持了相同的風格,以便風格特征提取更一致,引入了風格一致性損失,具體公式如(4)所示:

(4)

Consistency Structure Loss[13]:為了讓生成圖像與原圖像的結構更一致,還加入結構一致損失來強化生成前后的結構特征一致性,其具體公式如(5)所示:

(5)

1.4 評價指標

為了驗證本文提出的模型的性能,通過以下三個評價指標進行定量分析。

(1)均方根誤差是衡量預測值與真實值之間的偏差差距。RMSE的值越小,表示預測模型的精度越高。其中x表示漢字字體生成網絡生成的融合圖像,y表示期望目標漢字字體圖像。其計算公式如(6)所示:

(6)

(2)內容相似度是通過VGG19網絡的分類器提取兩張圖像的高級特征,這些特征之間的歐氏距離越小,兩張圖像的SIOC越高。

dF(F1,F2)=

(7)

根據上述高級特征向量之間的歐氏距離可得內容相似度如公式(8)所示:

(8)

(3)風格相似度是通過卷積層得到特征圖組成的Gram矩陣,Gram矩陣之間的歐氏距離越小,兩張圖像的風格越相似,風格相似度評價標準可根據計算特征之間的相關性 構建Gram矩陣,比較兩張圖像的Gram矩陣可以體現風格損失的情況。

dG(G1,G2)=

(9)

根據上述Gram之間的歐氏距離可得風格相似度如公式(10)所示:

(10)

2 實驗及實驗結果分析

2.1 實驗數據集與實驗環境

本文使用Adam優化算法來訓練生成器和判別器,設置批處理大小為4,初始學習率為0.000 2,從GB2312字符集中選取了10個數字和52個大小寫英文字符,構成了西文數據集,從GB2312字符集中選取了常用的9 169個中文漢字構成了漢字數據集。

本文的實驗環境采用Intel Xeon(R)CPU E5-2620 v4@2.10 GHz×32處理器,64 GB 內存,配備2張Tesla K40C顯卡,在Ubuntu 18.04操作系統下,配置Python 3.6.5、深度學習框架PyTorch、Keras,使用CUDA9.0和CuDNN實現GPU加速。

2.2 實驗結果分析

本文將訓練數據分為西文數據集和中文數據集兩部分,分別進行訓練和測試。西文數據集包括41 600張訓練集和10 400張驗證集,中文數據集包括24 000張訓練集和6 000張驗證集。

中文數據集多風格融合的漢字的粗細如圖4。InfoGAN的優點是它不需要任何監督信息,而是自動地發現數據中的潛在結構和變化因素。

本文在InfoGAN模型中加入條件變量,使得生成器模型可以針對不同的條件生成不同的風格圖片。部分不同西文和中文風格融合后的效果圖如圖5。中文融合部分的實驗效果是用不同的字體從不同的方面進行融合。

圖5 中西文多風格融合示例圖

2.3 實驗方法對比

本文對比了VAE[14]、Beta-VAE[15]和InfoGAN等特征多風格融合方法生成字體圖像的質量和多樣性如圖6。從圖中可以看出本文提出的方法在字形、紋理、風格等融合方面均略好于其他方法。

圖6 不同方法對比實驗示例

此外,通過定量指標或定性指標來評估不同模型的表現見表2。在兩組字體圖像中,RMSE指標比VAE平均低1.00個百分點,比Beta-VAE平均低1.02個百分點,比InfoGAN平均低1.34個百分點;SIOC指標比VAE平均高0.76個百分點,比Beta- VAE平均高1.12個百分點,比InfoGAN平均高0.48個百分點;SIOS指標比VAE平均高0.83個百分點,比Beta-VAE平均高1.01個百分點,比InfoGAN平均高1.07個百分點。說明本文方法生成的字體融合圖像與參考圖像的均方根誤差最小,模型預測精度最高;內容相似度和風格相似度最高。通過這些實驗結果,可以證明本文提出的方法具有較強的特征解耦能力和圖像多風格融合能力。

表2 定量評價

2.4 消融實驗

為了評估該模型的效果和探究其內部機制,進行了消融實驗。使用改進的InfoGAN模型,在200種字庫和9 000張字體圖像的訓練集下進行訓練。對比了使用CAM融合和不使用CAM融合兩種方式的效果差異。結果表明,改進后的模型能夠更好地保留不同漢字書法風格的特征,并生成更加自然、流暢的漢字書法風格。比較原始的InfoGAN模型,具有更好的多風格融合效果。模型改進前后的部分對比示例圖如圖7。

圖7 模型消融實驗示例圖

加入CAM模塊的消融實驗定量分析見表3。從表中數據可以看出加入CAM模塊的改進是有效的。

表3 模型消融實驗定量評價

3 結 語

通過改進的InfoGAN模型。對不同字體的特征進行提取,將這些特征分解為不同的子空間,即多風格融合。然后再將這些特征進行融合,生成新的字體。因此,可以生成大量具有不同風格的字體,且生成的字體與原始字體的特征關系可以被保留,因此生成的字體質量較高。

猜你喜歡
風格特征字體向量
向量的分解
傣族舞蹈中基本體態短句的風格特征及訓練方法
聚焦“向量與三角”創新題
字體的產生
淺析蒙古族民間舞蹈中“繞肩”的審美規范
向量垂直在解析幾何中的應用
基于民族風格特征的云南原生態音樂分類研究
向量五種“變身” 玩轉圓錐曲線
組合字體
論巴赫音樂的多重風格特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合