主頁 >  其他 > 絕了!分割mask生成動漫人臉!爆肝數周,從零搭建

絕了!分割mask生成動漫人臉!爆肝數周,從零搭建

2022-02-26 09:04:32 其他

En點擊下方“AI演算法與影像處理”,一起進步!

重磅干貨,第一時間送達

大家好,我是 阿潘~

很多小伙伴期待已久的實戰專案來了,今天分享一個國外論壇medium大佬的文章,從 0 做專案的整個程序,具有很大的參考價值,大家感興趣的可以試著參考這個思路去實作,比起直接跑別人現有的完整,一定能更有識訓和成就感,

如果文章對你有幫助,記得“在看+點贊+分享”!

主要流程包括:

1、確定目標(分割mask ---> 動漫人臉)

2、確定技術路線(語意分割 + 語意合成)

3、實作(資料集標注 + 模型調優 + 界面撰寫)

PS:原作者并沒有開源資料集和代碼, 不過給了所有參考資料的原始碼和資料集鏈接!復現應該沒有問題

ef046d288971abbb10730d18ab5b9101.png

目標

該專案的目標是建立一個深度學習模型,從分割mask生成動漫人臉肖像,

238cffa3b23dbc0cfde4fb637bb4a006.png

segmentation mask to anime face portrait

在這個專案中,首先手動標注一小批影像,然后使用資料增強和 U-Net 模型來乘以分割mask的數量來構建資料集,最后,訓練一個 GauGAN 模型,用于從分割mask中合成動漫人臉,

1. 語意分割

語意分割是為影像中的每個像素分配標簽(也稱為類 id)的程序,它的結果是一個分割mask,它是一個大小為高度 * 寬度的陣列,每個像素都包含一個類 ID,

b641aef272506cb4fd1f2db1355b561d.png

class id: 0 = background, 5 = hair

1.1 Dataset

在進入影像生成任務之前,我們需要一個分割mask資料集,用于訓練生成模型將mask轉換為影像,

不幸的是,我在互聯網上找不到任何動漫人臉分割資料集,盡管如此,Danbooru2019-Portraits 上有一個動漫肖像(512 x 512px)資料集,所以我決定從 Danbooru 肖像中標注的分割mask,

資料集鏈接:https://www.gwern.net/Crops#danbooru2019-portraits

1.2 Annotation

要標注影像,我們必須確定類,最初的想法是列出 15 個類:

background, body, ear, face, eyeball, pupil, eyelash, nose, mouth, hair, hair_accessory, eyebrow, glasses, clothes, hand

后來為了簡單起見,將其縮減為 7 個類,最終的類串列如下:

background, skin, face, eye, mouth, hair, clothes

有許多不同的注釋工具,這里使用的是 labelme,

https://github.com/wkentaro/labelme

803536a8ac4dee684b53fe8299c8f13f.png

labelme GUI

f72e19b3adc5dffac670fbbd089aebea.gif

在這項乏味的作業上辛勤作業數周后,設法標注了 200 張影像

64dc63493ea526f181f386190bc6d5ae.png

examples of annotated masks

fc6fd86c5db567f41d27db4efaa2da09.png

left: original image, middle: segmentation mask, right: visualization of the annotation

1.3 Data Augmentation

當然,200 張帶注釋的影像不足以讓我們訓練我們的網路,我們需要使用資料增強技術來增加資料集的大小,

通過隨機旋轉、鏡像和扭曲影像,我從這 200 個樣本中生成了 3000 多個資料,換句話說,現在我有 3200 個資料,

cda2600a58660012f9d4ba9f2122ecef.png

examples of augmented masks

然而,這些資料在內容和風格方面高度重復,因為它們僅從 200 個樣本中擴充而來,為了訓練網路將分割掩碼轉換為高質量和多樣化的動漫面孔,我們需要的不僅僅是 200 + 3000 個資料點,因此,我將首先使用這些資料來訓練一個 U-Net 模型來學習從動漫人臉到分割掩碼的翻譯,然后我會將整個 Danbooru 肖像資料集輸入到經過訓練的 U-Net 模型中,以生成更多不同人臉的分割掩碼,

30d51df4cc8769c28a2ca885fec731ac.png

anime face portraits to segmentation mask

1.4 U-Net

U-Net 最初是為了分割醫學影像進行診斷而引入的,它通過使用跳躍連接來解決傳統 FCN(全卷積網路)中發生的資訊丟失問題,在精確分割方面做得非常好,

U-Net 的架構與 Autoencoder 相似,但從下采樣端到上采樣端有額外的連接層,

9db30f884c918ad4429fb4d3bb0be81e.png

source: https://arxiv.org/abs/1505.04597

在下采樣部分,我使用預訓練的 MobileNetV2 從輸入影像中提取特征,在上采樣部分,我使用了由 Conv2DTranspose、Batchnorm 和 ReLU 層組成的塊,

57e1d6ac191461a78a6b0183a410b45f.png

U-Net v1, v2 architecture

在我的 U-Net 版本 1 中,輸入和輸出大小為 128 x 128px,經過訓練的模型確實學習了從動漫人臉到分割mask的非常好的映射,但由于我想在我后來的合成模型中擁有 512 x 512px 的輸入和輸出,我將 U-Net 輸出的大小調整為 512 x 512px 并進行插值,然而,結果看起來是像素化的,它未能捕捉到出現在小區域(例如嘴巴)中的某些類別,

在版本 2 中,我只是將輸入和輸出大小更改為 512 x 512px(我一開始并沒有這樣做,因為我不希望輸出嘈雜并在影像中令人困惑的區域中填充隨機點,例如 衣服),正如我所料,v2 的輸出很嘈雜,不過,它們看起來比 v1 更好,

be7d36bc6dc59fd36bdfe411d1c05777.png

U-Net v3 architecture

在版本 3 中,我嘗試通過用 UpSampling2D 層替換 Conv2DTranspose 層來減輕噪音和棋盤偽影,現在的結果比 v2 的要好得多,噪音更少,棋盤偽影更少,

aec9539894dd19935236ff5ec5c1bf7b.png

checkerboard artifacts of v2

69aba26cf5779ce5157a977887b99424.png

U-Net segmentation results

最后,我將整個 Danbooru 資料集輸入 U-Net v3 以構建我的分割掩碼資料集,

2. 影像語意合成

現在,我們有了分割蒙版資料集,是時候深入研究主要任務——影像語意合成,正如之前所說,這不過是從分割mask到真實影像的轉換的一個花哨的名稱,

bbfeb380055ce0b2e7fb18d8dd81e75b.png

Semantic Image Synthesis: segmentation mask to anime face portrait

2.1 GauGAN

eecd704a645ca6a1445cba2df8ed32c6.gif

source: https://github.com/NVlabs/SPADE

GauGAN 由 Nvidia 開發,用于從分割mask合成逼真的影像,在他們的展示網站上,他們展示了 GauGAN 如何出色地通過幾筆畫來生成逼真的風景影像,

demo鏈接:https://www.nvidia.com/en-us/research/ai-playground/

7df5c9d58620aafbbe6b22ad078e593c.png

GauGAN architecture

上圖展示了 GauGAN 模型的架構,綠色塊完全代表發電機,鑒別器是一個 PatchGAN,

2.2 SPADE

7945cf1501f7bb101500571bda5079da.png

source: https://nvlabs.github.io/SPADE/

GauGAN 的核心是 SPADE(Spatially-Adaptive Denormalization)模塊,它是從 Batch Norm 修改而來的歸一化層,它旨在克服 pix2pixHD 中的挑戰:在具有統一類 ID 的大區域丟失語意資訊,

這是通過將 Conv 層引入Batch Norm來解決的,這樣它具有不同的引數集(β,γ),這些引數以分割mask為條件,并且會隨著不同的區域而變化,這意味著 SPADE 允許生成器在統一標簽區域中學習更多細節,

87c06bf3a9165d1339a35d60539e9dfb.png

因此,在我們的問題中,生成的影像可能如下所示:

bb6a0780575e234c2932e18c94947cb7.png

2.3 Pretrained Encoder

encoder 實際上是可選的,因為可以直接從高斯分布中采樣 z(潛在向量)而無需任何輸入(就像 vanilla GAN),這里使用了encoder ,因為我想用參考影像對生成的影像進行樣式設定,

232c924d25a37e187dc2c4026c10b9cb.png

VAE architecture

由于與encoder一起訓練 GauGAN 是不穩定的,需要更多的時間和資源,所以我提前使用 VAE 訓練了我的編碼器,然后在 GauGAN 模型的訓練程序中使用預訓練的encoder對 z 進行采樣,

2.4 Results

以下是從不同的分割mask和參考影像生成的影像的結果,

991c0bf201aa2f6f7f417c00de790d05.png

semantic image synthesis results

2.5 Latent Attribute Vectors

除了使用參考影像來控制輸出影像的風格外,我們還可以直接操縱潛在向量 z 來做到這一點,為此,我們首先需要找出潛在空間中的屬性向量,

動漫角色面部最重要的屬性之一是頭發顏色,但是,由于資料集沒有帶有頭發顏色的標簽,我必須自己使用 i2v 來標記它們,i2v 是一個用于估計插圖示簽的庫,然后,我們可以通過使用 t-SNE 將樣本影像的潛在向量投影到 2D 空間來可視化潛在空間以及估計的標簽,

b29a26366def556335d50d6836cb385c.png

t-SNE of 4000 samples (estimated hair colors are indicated by image border colors)

最后,通過計算不同標簽的潛在向量之間的距離和方向,我們可以得到屬性向量,下面的影片演示了使用提取的屬性向量在頭發顏色之間進行的轉換,

3. GUI

使用 python tkinter 庫創建了一個 GUI,用于編輯生成的影像和分割mask,以下是演示視頻:

4. 總結

這個專案還有改進的空間,尤其是語意分割模型(U-Net)和語意影像合成模型(GauGAN),以下是未來要做的事情的清單:

  • 尋找更好的模型架構以從原始影像中獲得更準確的分割掩碼

  • 改進 GauGAN 模型以消除頭發區域出現的噪聲

  • 訓練生成模型以生成隨機分割mask

參考資料

[1] D. Gwern Branwen, “Anime Crop Datasets: Faces, Figures, & Hands”, Gwern.net, 2022. https://www.gwern.net/Crops#danbooru2019-portraits

[2] “ wkentaro/labelme: Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation).”, GitHub, 2022. https://github.com/wkentaro/labelme

[3] O. Ronneberger, P. Fischer and T. Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, arXiv.org, 2022. https://arxiv.org/abs/1505.04597

[4] Odena, et al., “Deconvolution and Checkerboard Artifacts”, Distill, 2016. http://doi.org/10.23915/distill.00003

[5] “The NVIDIA AI Playground”, NVIDIA, 2022. https://www.nvidia.com/en-us/research/ai-playground/

[6] “NVlabs/SPADE: Semantic Image Synthesis with SPADE”, GitHub, 2022. https://github.com/NVlabs/SPADE

[7] “Semantic Image Synthesis with Spatially-Adaptive Normalization”, Nvlabs.github.io, 2022. https://nvlabs.github.io/SPADE/

[8] “rezoo/illustration2vec: A simple deep learning library for estimating a set of tags and extracting semantic feature vectors from given illustrations.”, GitHub, 2022. https://github.com/rezoo/illustration2vec

推薦閱讀

科研人必備新神器,ReadPaper!愛了真好用!

CVPR2021 最具創造力的那些作業成果!或許這就是計算機視覺的魅力!

英偉達又一個GAN!PoE-GAN,AI繪圖細節拉滿,看完直接沸騰了!

如果文章對你有幫助,記得“在看+點贊+分享”!

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/433218.html

標籤:AI

上一篇:Jetson Xavier NX基于YOLOv5+CSI攝像頭實作目標檢測

下一篇:python實作柵格影像的裁剪

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more