?

基于深度神經網絡的圖像風格遷移系統開發

2023-08-09 18:20黃凱怡姜佳琪方建文楊彩云

計算機應用文摘 2023年15期

關鍵詞：樣式卷積像素

黃凱怡姜佳琪方建文楊彩云

摘要：傳統的圖像風格遷移程序通過人工建模只能局限于單一風格遷移，且資源消耗過大。2015 年jatys 等提出了一種基于卷積神經網絡的圖像風格遷移算法，通過這一種算法便能生成各種具有原內容和新風格的合成圖像。文章利用深度學習算法，對卷積神經網絡模型和風格遷移算法進行圖像風格特征提取的研究，在MXNET 深度計算引擎上開發圖像風格遷移系統（Stvler），將一副圖像的風格遷移到另一副圖像，其成果可應用到設計、娛樂和社交等領域。

關鍵詞：深度神經網絡：圖像風格遷移;卷積神經網絡：VGG-19 模型

中圖法分類號：TP391文獻標識碼：A

１引言

藝術源于人類對生活情趣的探索，它的價值在于人類的審美意識。隨著時代的進步與發展，現代人的基本物質需求已經得到了滿足。所以，大多數人會通過追求藝術享受來豐富自身經歷、提升生活品質。即使大部分藝術在生活中都不具備實際的功能性，大多數人卻還是會愛上各種各樣的藝術，甚至在有些人的心中，藝術有著不可代替的地位。從古至今，藝術繪畫大師的作品吸引著千千萬萬的人。人們渴望自己也能夠擁有同樣藝術風格的圖像，圖像風格化這一概念由此誕生。

然而，繪制風格圖像需要大批相關技術人員，并損耗大量資源。２０世紀９０年代，科研人員相繼提出大量風格化算法來完成圖像風格化的任務。傳統圖像風格化算法多采用人工建立數學和物理模型的方式來模仿圖像風格，即一種圖像風格對應一個數學或統計模型。這樣做出來效果是不錯的，但一個程序基本只能做一種風格或者只針對一個場景，程序的適用范圍過于局限。本選題基于深度神經網絡來解答人類如何創造和感知藝術意象并實現圖像風格遷移。這樣一來，用一種算法就可以實現從任意圖像中提取風格并將其應用于內容完全不同的其他圖像中。

２系統總體結構設計

本系統主要包括圖像輸入、圖像預處理和圖像后處理、圖像特征提取、損失函數定義、合成圖像創建、模型訓練６大模塊。本系統的第一步是在圖像輸入模塊中輸入內容圖像和樣式圖像，讀取任意圖像后需要進行圖像預處理和后處理，通過標準化處理來增強系統圖像兼容性。第二步是利用ＶＧＧ?１９網絡模型的某些層來抽取內容和樣式特征。第三步是定義損失函數。內容損失對比保留原始圖像，樣式損失對比合成樣式圖像，而總變差損失則優化減少合成圖像中的噪點（圖像顆粒感）。第四步是創建和初始化合成圖像。第五步就是通過迭代來訓練模型最終輸出合成圖像?？傮w結構設計如圖１所示。

其中，基于ＶＧＧ?１９卷積神經網絡的遷移方法過程如圖２所示。圖中輸入的內容圖像為作者在舊金山漁人碼頭附近的街道拍攝的照片，輸入的樣式圖像是一幅內容為樹木的油畫。最終輸出的合成圖像內容還是街景，但是樣式融入了油畫筆觸，同時整體顏色也更加飽滿鮮艷了。

３系統實現

３．１圖像輸入模塊設計

導入程序相關的包和模塊，例如ｄ２ｌｚｈ，ｍｘｎｅｔ以及ｔｉｍｅ，然后調用函數分別讀取任意大小與尺寸的內容圖像和樣式圖像，獲取圖像的尺寸和大小。

３．２圖像預處理與后處理模塊設計

設計ｐｒｅｐｒｏｃｅｓｓ函數并對輸入圖像進行預處理，將ＲＧＢ３個通道分別進行標準化，使其變成卷積神經網絡所接受的輸入格式。設計ｐｏｓｔｐｒｏｃｅｓｓ函數后處理輸出圖像，把圖像的像素值還原回標準化之前的格式，以方便正確輸出圖像。輸出圖像用打印函數來表示，該函數要求每個像素的浮點數值在０～１之間，所以ｃｌｉｐ函數用來剔除非０～１的數（小于０的數?。?，大于１的值分別１）。其中ｒｇｂ均值是在ｉｍａｇｅＮｅｔ數據集上學習到的。

ｒｇｂ＿ｍｅａｎ＝ｎｄ．ａｒｒａｙ（［０．４８５，０．４５６，０．４０６］

ｒｇｂ＿ｓｔｄ＝ｎｄ．ａｒｒａｙ（［０．２２９，０．２２４，０．２２５］）

ｄｅｆｐｒｅｐｒｏｃｅｓｓ（ｉｍｇ，ｉｍａｇｅ＿ｓｈａｐｅ）：

ｉｍｇ＝ｉｍａｇｅ．ｉｍｒｅｓｉｚｅ（ｉｍｇ， ?ｉｍａｇｅ＿ｓｈａｐｅ）

ｉｍｇ＝（ｉｍｇ．ａｓｔｙｐｅ（＇ｆｌｏａｔ３２＇）／２５５－ｒｇｂ＿ｍｅａｎ）／ｒｇｂ＿ｓｔｄ

ｒｅｔｕｒｎｉｍｇ．ｔｒａｎｓｐｏｓｅ（（２，０，１））．ｅｘｐａｎｄ＿ｄｉｍｓ（ａｘｉｓ＝０）

ｄｅｆｐｏｓｔｐｒｏｃｅｓｓ（ｉｍｇ）：

ｉｍｇ＝ｉｍｇ［０］．ａｓ＿ｉｎ＿ｃｏｎｔｅｘｔ（ｒｇｂ＿ｓｔｄ．ｃｏｎｔｅｘｔ）

ｒｅｔｕｒｎ（ｉｍｇ．ｔｒａｎｓｐｏｓｅ（（１，２，０）） ? ｒｇｂ＿ｓｔｄ＋ｒｇｂ＿ｍｅａｎ）．ｃｌｉｐ（０，１）

３．３圖像特征抽取模塊

本項目使用Ｇａｔｙｓ提出的ＶＧＧ?１９網絡來抽取圖像特征。經過研究者實驗，在遠離輸入層的地方易抽取圖像的全局信息，在靠近輸入層的地方則容易抽取圖像的局部細節信息。綜合以上考慮，本設計將第５個卷積塊中的第１個卷積層作為樣式層，將第４個卷積塊的最后一個卷積層作為內容層，這樣可以得到作者認為的最佳效果。在抽取特征時，不需要使用整個ＶＧＧ網絡，只需使用上述的６個卷積層。所以需要構建一個新的網絡ｎｅｔ，具體層數可以從ｐｒｅｔｒａｉｎｅｄ＿ｎｅｔ實例中查看獲取。

３．４損失函數定義模塊

損失函數主要包括內容損失函數、樣式損失函數、總變差損失函數。內容損失函數采用平方誤差函數來匹配合成圖像與內容圖像在內容特征。樣式損失函數也是通過平方誤差函數來優化樣式風格，具體是對比圖像像素點在每個通道上的統計分布。比如，顏色是通過對比ＲＧＢ直方圖來匹配２圖之間的顏色差異；紋理則是通過對比先前用卷積神經網絡中提取的紋理，然后，再用格拉姆（Ｇｒａｍ）矩陣來有效地模擬紋理的各種變化，表示紋理信息。實驗中部分內容圖像與特征圖像的特征結合后，其合成的圖像中會有大量高頻噪點，本系統采用總變差損失函數來降噪?？傋儾顡p失（ＴＶｌｏｓｓ）約束噪聲的具體方法是通過降低總變差損失來盡可能使鄰近的像素值相近［１～４］。

３．５合成圖像創建模塊

在遷移過程中，合成的目標圖像是一個需要一直更新的變量，本系統將合成圖像視為模型參數，通過定義一個新的ＧｅｎｅｒａｔｅｄＩｍａｇｅ類來表示。類內還需定義一個前向計算ｆｏｒｗａｒｄ（ｓｅｌｆ）函數來返回模型參數。

ｃｌａｓｓＧｅｎｅｒａｔｅｄＩｍａｇｅ（ｎｎ．Ｂｌｏｃｋ）：

ｄｅｆ＿＿ｉｎｉｔ＿＿（ｓｅｌｆ，ｉｍｇ＿ｓｈａｐｅ， ??ｋｗａｒｇｓ）：

ｓｕｐｅｒ（ＧｅｎｅｒａｔｅｄＩｍａｇｅ，ｓｅｌｆ）．＿＿ｉｎｉｔ＿＿（??ｋｗａｒｇｓ）

ｓｅｌｆ．ｗｅｉｇｈｔ＝ｓｅｌｆ．ｐａｒａｍｓ．ｇｅｔ（＇ｗｅｉｇｈｔ＇，ｓｈａｐｅ＝ｉｍｇ＿ｓｈａｐｅ）

ｄｅｆｆｏｒｗａｒｄ（ｓｅｌｆ）：

ｒｅｔｕｒｎｓｅｌｆ．ｗｅｉｇｈｔ．ｄａｔａ（）

隨后還需定義一個ｇｅｔ＿ｉｎｉｔｓ函數來創建合成圖像的模型實例，并將其初始化命名為圖像Ｘ。

ｄｅｆｇｅｔ＿ｉｎｉｔｓ（Ｘ，ｃｔｘ，ｌｒ，ｓｔｙｌｅｓ＿Ｙ）：

ｇｅｎ＿ｉｍｇ＝ＧｅｎｅｒａｔｅｄＩｍａｇｅ（Ｘ．ｓｈａｐｅ）

ｇｅｎ＿ｉｍｇ．ｉｎｉｔｉａｌｉｚｅ（ｉｎｉｔ．Ｃｏｎｓｔａｎｔ（Ｘ），

ｃｔｘ＝ｃｔｘ，ｆｏｒｃｅ＿ｒｅｉｎｉｔ＝Ｔｒｕｅ）

ｔｒａｉｎｅｒ＝ｇｌｕｏｎ．Ｔｒａｉｎｅｒ（ｇｅｎ＿ｉｍｇ．ｃｏｌｌｅｃｔ＿ｐａｒａｍｓ（），＇ａｄａｍ＇，｛＇ｌｅａｒｎｉｎｇ＿ｒａｔｅ＇：ｌｒ｝）

ｓｔｙｌｅｓ＿Ｙ＿ｇｒａｍ＝［ｇｒａｍ（Ｙ）ｆｏｒＹｉｎｓｔｙｌｅｓ＿Ｙ］

ｒｅｔｕｒｎｇｅｎ＿ｉｍｇ（），ｓｔｙｌｅｓ＿Ｙ＿ｇｒａｍ，ｔｒａｉｎｅｒ

３．６模型訓練模塊

首先，定義ｔｒａｉｎ函數，該函數有７個參數。Ｘ代表初始化圖像也是最后輸出的合成圖像，ｃｏｎｔｅｎｔｓ＿Ｙ代表內容圖像的內容特征，ｓｔｙｌｅｓ＿Ｙ則是風格圖像的風格特征，ｃｔｘ是ＧＰＵ相關參數，ｌｒ即學習率（ｌｅａｒｎｉｎｇｒａｔｅ）。ｍａｘ＿ｅｐｏｃｈｓ為訓練迭代的次數，不斷抽取合成圖像的內容特征和樣式特征，并計算損失函數來優化圖像。在每一個迭代周期調用一次同步函數ｗａｉｔａｌｌ，可以解決內存占用過高問題。每經過ｌｒ＿ｄｅｃａｙ＿ｅｐｏｃｈ次迭代，將ｌｒ減少１／１０，使得收斂加速。

接著進行模型訓練。將內容圖像和樣式圖像的高和寬調整為統一像素，大小可以調節?？梢韵仍O置小一些的像素，這樣訓練速度較快，這里設置為２２５×１５０像素。訓練迭代參數的設置是經過試驗的，參數過小無法得到清楚結果，參數過大會導致訓練時間過長消耗過大且對結果影響并不大。代碼如下，其中內容圖像ｃｏｎｔｅｎｔ＿Ｘ初始化合成圖像，初始學習率設為０．０１，迭代次數設為５００，學習率改變的位置設為每２００次。

將訓練好的合成圖像保存為ｎｅｕｒａｌ?ｓｔｙｌｅ?１．ｐｎｇ。一般而言，這樣的圖像已經可以得到遷移到風格的新圖像。為了得到更加清晰的合成圖像，可以將上一步的輸出放在更大的像素尺寸上進行訓練。這里將高和寬放大２倍，設置為４５０×３００的尺寸來初始化合成圖像。將合成圖像保存為ｎｅｕｒａｌ?ｓｔｙｌｅ?２．ｐｎｇ，初始學習率仍設為０．０１，迭代次數改為３００，學習率改變的位置設為每１００次［５～１０］。

３．７訓練結果分析

本節圖３（ａ）為原始內容圖像，圖３（ｂ）為原始風格圖像。首先，本節選?。?組圖像對比合成圖像在不同像素情況下的轉換情況。圖３（ｃ）為分辨率２２５×１５０像素的合成圖像，圖３（ｄ）為分辨率４５０×３００像素的合成圖像。原始圖像為巴厘島的某一餐廳外景，模仿到風格圖像的紋理后合成圖變得有油畫的筆觸，色塊變得比較大，圖像有點朦朧感，多了些許詩情畫意。

圖４為控制風格權重變量的結果圖像對比。圖４（ｃ）、圖４（ｄ）是分辨率為２２５×１５０像素的合成圖像，圖４（ｃ）的風格權重為１０３，圖４（ｄ）的風格權重為１０４。圖４（ｅ）、圖４（ｆ）是分辨率為４５０×３００像素的合成圖像，圖４（ｅ）的風格權重為１０３，圖４（ｆ）的風格權重為１０４。從藍天上可以明顯發現在其他變量不變的情況下，風格權重越大模仿的風格特征更明顯。

４結束語

本文主要介紹并回答了如何規定圖像風格；如何提取圖像紋理特征而不夾雜內容特征；如何提取圖像內容特征而不夾雜紋理特征；如何將兩種特征融合生成目標圖像。同時，分析并驗證深度卷積神經網絡中不同層對于圖像特征表達的特性。通過反向傳播算法對ＶＧＧ１９不同層所抽取的特征進行反向圖片生成，以可視化的方式驗證深層卷積神經網絡中不同層所抽取的特征特性。找到一種基于交替訓練的風格遷移算法。該算法主要為解決經典神經風格遷移算法中所存在的內容細節丟失，物體邊緣扭曲以及顏色覆蓋等問題，提出一種交替訓練的方式，以盡可能地保留內容圖片中的細節信息。找到一種基于多路徑前饋神經網絡的實時風格遷移算法。該算法在編碼器與解碼器之間添加多個由殘差塊所構成的通道，從而提高網絡收斂速度以及生成圖片的質量。找到一種基于多層次特征轉換的任意風格遷移算法。訓練一個通用的解碼器，通過特征轉換的方式直接對編碼器所提取的特征圖進行操作，進而豐富所需渲染圖片的風格。

參考文獻：

［１］黃海新，梁志旭，張東．基于深度學習的圖像風格化算法研究綜述［Ｊ］．電子技術應用，２０１９，４５（７）：２７?３１．

［２］陳淑環，韋玉科，徐樂，等．基于深度學習的圖像風格遷移研究綜述［Ｊ］．計算機應用研究，２０１９，２６（８）：２２５０?２２５５．

［３］ＥＦＲＯＳＡＡ，ＦＲＥＥＭＡＮＷＴ．Ｉｍａｇｅｑｕｉｌｔｉｎｇｆｏｒｔｅｘｔｕｒｅｓｙｎｔｈｅｓｉｓａｎｄｔｒａｎｓｆｅｒ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓａｎｄＩｎｔｅｒａｃｔｉｖｅＴｅｃｈｎｉｑｕｅｓ．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，２００１：３４１?３４６．

［４］錢小燕，肖亮，吳慧中．快速風格遷移［Ｊ］．計算機工程，２００６，３２（２１）：１５?１７＋４６．

［５］阿斯頓·張，李沐，扎卡里·Ｃ．動手學深度學習［Ｍ］．北京：人民郵電出版社，２０１９．

［６］劉建偉，劉媛，羅雄麟．深度學習研究進展［Ｊ］．計算機應用研究，２０１４，３１（７）：１９２１?１９３０＋１９４２．

［７］孫志軍，薛磊，許陽明．深度學習研究綜述［Ｊ］．計算機應用研究，２０１２，２９（８）：２８０６?２８１０．

［８］牟晉娟．基于深度學習的圖像風格遷移技術的研究［Ｊ］．電子元器件與信息技術，２０１９，３（４）：８２?８５．

［９］欒五洋．基于深度學習的圖像風格轉換淺論［Ｊ］．經驗交流，２０１８：２４８?２５０．

［１０］焦李成，楊媛淑，劉芳，等．神經網絡七十年：回顧與展望［Ｊ］．計算機學報，２０１６（８）：１６９７?１７１６．

作者簡介：

黃凱怡（２００１—），本科，研究方向：計算機應用技術。

方建文（１９７２—），博士，教授，研究方向：計算機應用技術（通信作者）。

猜你喜歡

樣式卷積像素

CPMF-I 取樣式多相流分離計量裝置

天然氣與石油(2022年4期)2022-09-21

像素前線之“幻影”2000

小哥白尼(軍事科學)(2022年2期)2022-05-25

CPMF-I 取樣式多相流分離計量裝置

天然氣與石油(2021年5期)2021-11-06

基于3D-Winograd的快速卷積算法設計及FPGA實現

北京航空航天大學學報(2021年9期)2021-11-02

取樣式多相流分離計量裝置

天然氣與石油(2021年1期)2021-03-08

“像素”仙人掌

紅領巾·萌芽(2019年8期)2019-08-27

從濾波器理解卷積

電子制作(2019年11期)2019-07-04

基于傅里葉域卷積表示的目標跟蹤算法

北京航空航天大學學報(2018年1期)2018-04-20

éVOLUTIONDIGAE Style de vie tactile

中國與非洲(法文版)(2017年10期)2017-11-23

高像素不是全部

CHIP新電腦(2016年3期)2016-03-10

計算機應用文摘2023年15期

計算機應用文摘的其它文章: 盤點ＡＭＤ的５Ｇ戰略：ＡＩ＋ＥＰＹＣ＋ＦＰＧＡ; 中職《ＷＰＳ辦公應用》教材建構中自動化辦公系統的設計實踐研究; 電子信息工程中的信號處理系統設計及應用; 一種新型可重復利用的便捷快遞包裝袋設計; 北斗導航定位系統在航海保障中的應用; 基于聲源定位的智能小車

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合