基于Diffusers框架的電商產品圖制作方法研究

2024-03-29 15:55伍海洋馬川越劉登輝

無線互聯科技 2024年2期

伍海洋,馬川越,劉登輝

(西京學院電子信息學院,陜西西安 710123)

0 引言

產品展示圖是對商品全方位的圖片展示,一般為主圖部分的圖片以及更多產品應用場景的圖片。產品展示圖主要包括白底圖以及商拍圖,單件商品有多種顏色,如果需要拍完單件產品的整套展示圖,不僅成本高,而且耗費時間,影響商家的上新進度與成本控制,所以商品圖的低成本批量生成對電商賣家具有重要的意義。

Diffusion模型可以根據提示詞生成圖像[1],也可以加入Control Net、LoRA等模型,從而加強圖像生成過程的可控性,本文的主要工作如下。

(1)設計并實現了電商產品圖背景替換以及模特替換的流程,該流程可以根據關鍵詞替換指定風格的背景以及模特。

(2)使用Ultralytics、Segment Anything、Grounding DINO等算法來實現衣服分割以及人臉檢測等預處理,從而實現模特替換以及生成臉部和手部的細節修復。

1 擴散模型與Control Net網絡

1.1 Diffusion模型

去噪擴散概率模型[2](Denoising Diffusion Probabilistic Models,DDPM),在前向階段對數據逐步施加噪聲,直到數據完全變成高斯噪聲,然后再在逆向階段將噪聲還原為原始數據。在前向傳播過程中,會逐漸對初始圖像添加噪聲,將輸入的真實圖像x0逐漸變成無序的高斯噪聲圖像xt,在每一次的加噪過程中,該次添加噪聲的標準差是由固定值βt給定的,均值是由βt和當前t時刻的數據xt決定的,整個過程是一個馬爾科夫鏈過程。

1.2 Control Net網絡

Control Net網絡創新性地提出了Zero Convolution概念,該網絡會復制原模型的編碼器部分,外部條件輸入會與原模型輸入經過相同的編碼器部分,并通過Zero Convolution與編碼后的隱變量結合,從而實現對生成流程的控制。在DDPM中,模型使用類似于矢量量化生成對抗網絡(Vector Quantized Generative Adversarial Network,VQ-GAN)的預處理方法將尺寸為512×512像素的圖像數據集轉換為64×64像素的潛在圖像進行訓練,這需要Control Net將基于圖像的條件轉換為64×64像素的特征空間,以匹配卷積大小。Control Net在計算方式上是高效的,因為原始權重是鎖定的[3],所以訓練不需要在原始編碼器上進行梯度計算,這樣可以加快訓練速度,節省近一半的GPU內存。

2 實驗與分析

電商產品圖的制作包括圖像蒙版的制作、背景以及模特的生成、圖像細節修復3個部分。首先根據不同的任務獲得圖像的蒙版,再通過Control Net網絡控制DDPM模型生成所需背景或模特,再根據半身和全身的區別分別通過全圖超分和局部超分修復細節,最終生成指定要求的商品圖。

2.1 背景替換

為實現背景替換效果,首先需要對輸入圖像進行預處理。用MOD Net對圖像做人像分割,得到圖像蒙版,將圖像的前景和后景分開,再用ZoeDepth對原圖做預處理,得到圖像的深度圖,從而控制生成圖的前后景關系。本文對蒙版做邊緣檢測,控制生成圖像的前景邊緣部分,進一步將前后景分離,在將邊緣檢測加入DDPM時,使用的Control Net模型是Sd-Controlnet-Canny,輸入圖像為邊緣檢測圖[4],網絡控制權重設置為1。在將深度圖加入DDPM時,使用的Control Net模型是Control_V11f1p_Sd15_Depth,輸入圖像為深度圖,網絡控制權重為1,介入時間為0.5～1.0 s。

經實驗發現,重繪幅度越大,背景內容會越豐富,但也會出現區域重復、無意義物體等壞圖現象,重繪幅度變小,圖像也會變成灰褐色背景,這是由于去噪時沒有明確的暗示。實驗結果表明,重繪幅度在0.8時,既能保證生成圖景深的準確性,也能實現背景替換的功能。

2.2 模特替換

模特替換的預處理需要得到原圖的衣服蒙版、深度圖、邊緣檢測圖、姿態估計圖。邊緣檢測圖和深度圖的獲取方式與背景替換的獲取方式相同[5],不再贅述。本文獲取衣服蒙版的方式,是將Segment Anything模型與Grounding DINO模型相結合,自動分割衣服蒙版。分割一切模型(Segment Anything Model,SAM)是Mata AI研究團隊在ICCV2023上提出的一種新的全場景分割模型[6],該模型可以對任何圖像中的任何對象進行分割,SAM是一個可提示模型,模型在數據收集循環中使用高效的方法構建了迄今為止最大的數據集,具有良好的泛化能力。Grounding DINO是一種開集目標檢測方案,將基于Transformer的檢測器與DINO相結合,開集檢測的關鍵是引入 Language 閉集檢測器,用于開集概念泛化。本文將閉集檢測器分為3個階段,提出一種緊密融合方案,包括 Feature Enhancer、Language-Guided Query Selection、Cross-Modality Decoder。除了對新穎類別進行檢測,還可進行特定屬性目標識別[7]。在COCO 數據集上零樣本檢測達到 52.5AP,在 COCO 數據集 Finetune 后達到 63AP。本文用 Grounding DINO 實現衣服的目標檢測,得到衣服在圖中的位置,并將坐標發送給 SAM,再利用 SAM 模型做衣服分割,從而得到準確的衣服蒙版。在姿態估計方面,選擇了DWpose模型作為姿態估計模型,DWpose模型在RTMpose模型的基礎上做二階段蒸餾,一經推出就是COCO-Wholebody數據集的SOTA,并且不需要依靠MMCV的依賴庫就可以接入Control Net,模型整體會更加輕量化[7],但是精度并未降低,推理速度更快。

2.3 圖像修復實驗

2.3.1 局部修復實驗

局部重繪的思想是先用Ultralyics做臉部檢測和手部檢測,按照512×512的尺寸將圖像截取,再做皮膚分割,將皮膚的部分重繪,然后再將修復后的局部圖像與原圖像做泊松融合[8]。

在皮膚分割的算法中,選擇了 Will Brennan 在2020年發布在 github 上的一個項目,該項目是 Skin Detection 的優化版本Semantic Segmentation,該項目分別使用FCNRes Net101 以及 BiSe NetV2 作為 Backbone 實現了皮膚的語義分割,該項目雖然只在 COCO 數據集選擇 150 張圖像作為自定義數據集進行訓練,但是從結果來看,對于皮膚的分割效果比 Paddle Seg 效果更好。為了進一步優化該模型的分割效果,再加入一個 ViTmatte算法,讓邊緣更加清晰。ViTmatte 算法是基于 Hugging Face Transformers 庫開發的摳圖算法,由NielsRogge開發,提供快速、高質量的摳圖功能,快速分離圖像的前景與后景。

2.3.2 全圖超分修復實驗

全圖超分不需要將局部切割出來,而是在生成初始圖像后,使用超分算法將全圖重繪,將圖像超分為原圖的1.5倍,并使用生成式人臉完善器生成式對抗網絡(Generative Face Perfector Generative Adversarial Network,GFPGAN)模型以及 Codeformer模型,對全圖做圖像修復。超分過程的第一階段采樣器為ESRGAN_4x,第二階段采樣器為SwinIR_4x,強度為0.5。

經過實驗發現,在做半身圖的生成時,使用全圖超分的效果更好,在做全身圖生成時,使用局部重繪的效果更好,所以可以將圖像修復結合全身圖與半身圖的判斷,使得最終生成的圖像效果更好。

3 結語

本文提出一種基于擴散模型與Control Net網絡生成電商圖的方法,達到低成本電商圖生成的目的,通過背景替換實驗和模特替換實驗,驗證了本文方法的實用性;提出了2種圖像修復方法,生成的電商圖能夠準確地替換背景與模特部分;保證全圖的合理性與整體性,前后景的景深關系合理,無斷肢,無多余物體。本文方法能夠降低電商賣家制作產品圖的成本,在保證質量的情況下,提高電商圖的制作效率。

本文提出的電商圖生成方法依然存在一些不足,如后景的潛變量對生成影響較大,原圖尺寸過小或者過大都會導致最終的結果圖效果較差,對飾品,如眼鏡、手表等分割效果較差,生成效果也較差等,需要在后續研究中進一步提高對于飾品的分割效果與生成效果,消除后景的潛變量對生成的影響,為電商賣家提供更有效的電商圖制作手段。