主頁 >  其他 > Stable Diffusion AIGC:3步成為P圖大師

Stable Diffusion AIGC:3步成為P圖大師

2023-07-11 08:01:36 其他

摘要:instructPix2Pix文字編輯圖片是一種純文本編輯影像的方法,用戶提供一張圖片和文本編輯指令,告訴模型要做什么,模型根據編輯指令編輯輸入的影像,最終輸出用戶想要的影像,

本文分享自華為云社區《【云駐共創】Stable Diffusion AIGC限時0元!3步成為P圖大師》,作者:香菜聊游戲 ,

1、instructPix2Pix概覽

instructPix2Pix文字編輯圖片是一種純文本編輯影像的方法,用戶提供一張圖片和文本編輯指令,告訴模型要做什么,模型根據編輯指令編輯輸入的影像,最終輸出用戶想要的影像,

它可以讓你通過簡單的語言描述來生成符合要求的圖片,而不需要手動撰寫代碼或進行復雜的操作,這使得影像生成更加高效和便捷,例如,如果你想將一張天空照片轉換為夜晚照片,你只需要輸入指令:“將天空替換為黑暗的夜晚”,然后模型就會自動將天空替換為星星和月亮,并將顏色和光線調整為夜晚的感覺,

視頻地址:https ://bbs.huaweicloud.com/live/cloud_live/20230413.html

2、技術框架

2.1 框架概述

整個框架是使用現有大模型的能力,實作了自己的任務,整個技術堆疊都是現有技術的整合,但是依然做出了一個很好玩的應用

框架總體分為2個部分:模型訓練(Traning)和推理(Inference),

模型訓練分為資料工程和模型訓練,

整個pipeline的目標是通過使用GPT-3生成編輯指令和描述,以及使用Stable Diffusion生成影像對,來訓練Instruct-Pix2Pix模型,使其能夠根據編輯指令生成高質量的編輯后的影像,然后,使用訓練好的Instruct-Pix2Pix模型進行推理,以提供給用戶或實際應用場景所需的編輯后的影像,

2.2 資料生成

2.2.1 編輯指令的生成

這部分完全是文字作業,借助了GPT-3 的能力,給定一個輸入的描述,然后由GPT-3 輸出編輯后的指令和生成的描述

比如圖中輸入:The dog looks at the Camera

GPT3 會輸出:編輯指令 wearing a hat 和最終的描述指令 The dog wearing a hat looks at the camera

作者使用了700條人工標注的指令,并對GPT-3進行了微調,以便在生成編輯指令和編輯后的指令時能夠更好地滿足要求,

輸入GPT-3的指令格式包括兩部分:prompt和completion,其中,prompt是輸入指令,用于指導GPT-3生成相應的文本輸出;completion是編輯指令和編輯后的指令,用于在GPT-3生成的結果上進行進一步的修改和調整,這樣輸入的好處是編輯指令也是由GPT-3生成的,這樣保證生成的多樣哈,最終GPT會生成超過45萬的編輯指令,上圖高亮的部分都是GPT-3生成,這些指令被用于訓練Instruct-Pix2Pix模型,最終為實際應用場景提供高質量的影像編輯服務,

2.2.2 生成影像對

將上一步驟生成的超過45萬的編輯指令和描述指令,輸入通過Stable Diffusion 生成影像對,

在這個程序中存在一個挑戰,做過文生圖的同學都知道,即使你固定亂數,差距很小的prompt通過Stable Diffusion也有可能生成內容完全不同的影像,這是因為Stable Diffusion在生成影像時受到許多因素的影響,例如亂數生成、模型引數、輸入文本的微小變化等等,因此,即使兩個prompt看起來非常相似,Stable Diffusion也可能生成截然不同的影像,

解決辦法:

在文生圖中,使用了Cross Attention機制來建立文本和圖片之間的關聯,Cross Attention是一種注意力機制,其本質是通過篩選來實作資訊的融合,在文生圖中,這種機制被用于找到文本提示(prompt)與圖片之間的關系,

具體而言,當給定一個文本提示時,Cross Attention會對文本中的不同單詞進行激活,并通過注意力的機制,選擇與激活單詞相關聯的圖片區域,通過這種方式,可以根據文本提示中的不同單詞來激活不同的影像區域,從而實作文本與影像的關聯,

以文生圖中的例子為例,如果文本提示中包含單詞"bear",則Cross Attention機制會根據該單詞的激活程度,選擇與之相關聯的圖片區域,在上圖中可以看到,與"bear"相關聯的圖片區域被激活得最多,這意味著該區域與"bear"這個單詞有最強的關聯,

通過Cross Attention機制,文生圖能夠將文本提示和圖片進行有效地融合,從而產生與文本提示相對應的影像生成結果,這種機制能夠幫助生成更準確和相關的影像,使文本與影像之間的關聯更加緊密和有意義,

這個替換可以可以發生在任意一步,替換的越多則影像更多樣,

2.3 模型訓練,文生圖

instructPix2Pix 是通過有監督的方法實作文本編輯影像,使用條件擴散模型,

輸入的資料為:一張原圖和編輯指令,輸出編輯之后的圖

2.3.1 文生圖原理

整個任務是輸入prompt,根據prompt輸出一張圖,

1.對輸入的文字進行tokenlization和embedings獲得詞向量,

2.詞向量會在Diffusion中通過Cross Attention的程序中參與到影像生成的程序中

3.模型還會有一個隨機的噪聲圖向量輸入,在擴散的程序中恢復到原圖的生成像素向量

4.最后通過解碼器將像素向量解碼

2.3.2 instructPix2Pix 和Stable Diffusion的不同

1.instructPix2Pix會多出一個影像輸入,在輸入的時候將原圖拼接到噪聲圖,會需要額外的channel,這些額外的channel會被初始化為0,其他的權重會使用預訓練的Stable Diffusion初始化,

2.在訓練中增加了隨機的條件Dropout來平衡模型的生成的樣本的多樣性,

3.推理的程序中加入了引數可以調節原始影像所占的比例,

3、案例介紹

編輯命令支持中文,系統將中文翻譯為prompt,如果遇到生成的圖不好,可能是翻譯的不好,也可以直接輸入英文,同時系統支持生成海報,方便使用,

3.1 教程

體驗地址:https://developer.huaweicloud.com/develop/aigallery/notebook/detail?id=1449263e-83d2-438a-895c-dab8ab9ba5c8&ticket=ST-81479-CIrz2uuQi2uMIRcbTlzdobWR-sso

實名認證教程地址:https://developer.huaweicloud.com/develop/aigallery/article/detail?id=4ce709d6-eb25-4fa4-b214-e2e5d6b7919c

教程中有完成的介紹,這里就不贅述了

注意:

1.切換資源使會有提示,要等資源切換完成后再做操作,不要著急,

2.點擊生成海報后,會在notebook同級目錄下生成poster.png,右鍵下載即可,

3.如果沒有得到預期結果,可能的原因及方法:

? 如果圖片改變程度不夠,可能是"圖片引導強度"引數過高,這個引數代表輸出與輸入的相似程度,可以調整該引數多次嘗試;

? 如果是對人像進行編輯,而生成影像面部較為奇怪,是因為文生圖模型對較小的面部處理結果并不好,可以嘗試裁剪影像聚焦到主體;

? 運行采用隨機seed,同樣的描述語多次編輯會產生不同結果,可嘗試反復編輯;

? 使用同義但不同表述的描述語可能對結果有較大的影響,如"turn him into a dog" vs. "make him a dog" vs. "as a dog".

? 如需生成高解析度圖,請切換更高顯存的資源,同時修改應用cell中的max_size引數,

3.2 案例總結

整個案例的教程還是很清楚,也是免費的資源,開放的代碼,very good

4、總結

1. 在整個視頻講解中,首先詳細介紹了Instruct-Pix2Pix的技術架構,并與目前非常火熱的Stable Diffusion技術方案進行了比較,通過這些講解,我們可以深入了解這些技術的底層原理以及整個應用的實作細節,

2. 視頻中還演示了Model Art的使用,這是一個用于實踐這些技術的工具,在案例講解中,我們可以看到針對不同的情況進行了多個測驗案例,以展示該工具的強大功能,同時,視頻還提到了在使用程序中可能遇到的問題和挑戰,

綜上所述,整個視頻講解提供了對Instruct-Pix2Pix技術架構、Stable Diffusion技術方案以及Model Art工具的全面了解,通過案例講解和對實作細節的介紹,我們可以更好地理解和應用這些技術,同時也了解了可能面臨的挑戰和解決方案,

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/556945.html

標籤:其他

上一篇:Kernel-Pwn-FGKASLR保護繞過

下一篇:返回列表

標籤雲
其他(162335) Python(38273) JavaScript(25528) Java(18294) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7292) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4615) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1994) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • Stable Diffusion AIGC:3步成為P圖大師

    摘要:instructPix2Pix文字編輯圖片是一種純文本編輯影像的方法,用戶提供一張圖片和文本編輯指令,告訴模型要做什么,模型根據編輯指令編輯輸入的影像,最終輸出用戶想要的影像。 本文分享自華為云社區《【云駐共創】Stable Diffusion AIGC限時0元!3步成為P圖大師》,作者:香菜 ......

    uj5u.com 2023-07-11 08:01:36 more
  • Kernel-Pwn-FGKASLR保護繞過

    FGASLR(Function Granular KASLR)是KASLR的加強版,增加了更細粒度的地址隨機化。因此在開啟了FGASLR的內核中,即使泄露了內核的程式基地址也不能呼叫任意的內核函式。 ......

    uj5u.com 2023-07-11 08:01:16 more
  • 淺談常態化壓測 | 京東物流技術團隊

    隨著業務的不斷增長,支撐業務系統的壓力也逐漸增加,會面臨如系統越來越厚重、邏輯越來復雜、迭代節奏越來越快等繁雜的情況。我們當前并沒有做到在每次變化時快速識別出性能風險,檢測產品或系統的穩定性、可靠性,而且我們還在不斷的投入人力成本在壓測這件事情上也是不合理的,所以我們要將性能驗證融入到我們日常的作業... ......

    uj5u.com 2023-07-11 08:00:50 more
  • 有了紅黑樹,為啥還要跳表?

    本文繼續從二分搜索出發,推匯出另一種平衡樹結構:跳表。跳表是一種簡單而精巧的資料結構,和紅黑樹具備同等時間復雜度的同時,保持了足夠的簡單性——這種簡單性的關鍵是通過概率決定索引層數。 ......

    uj5u.com 2023-07-11 08:00:33 more
  • 聊聊「畫圖」和工具

    關于畫圖和工具選擇;兩句話能說明白;【1】示意清楚的都是「好圖」;【2】免費,夠用,支持云存盤,都是好的畫圖「工具」; ......

    uj5u.com 2023-07-11 08:00:04 more
  • 基于AidLux的自動駕駛智能預警應用方案

    1. 自動駕駛感知演算法及AidLux相關方案介紹 1.1自動駕駛 自動駕駛汽車,又稱無人駕駛車、電腦駕駛車、無人車、自駕車,是一種需要駕駛員輔助駕駛或者完全不需要操控的車輛。作為自動化載具,自動駕駛汽車可以不需要人類操作即能感知環境及導航。 1.2 自動駕駛系統的組成部分 1.2.1 環境感知系統 ......

    uj5u.com 2023-07-11 07:59:23 more
  • 共探AI大模型時代下的挑戰與機遇,華為云HCDE與大模型專家面對面

    摘要:近日,華為開發者大會2023(cloud)“開發者生態創新發展圓桌會議”在東莞華為溪流背坡村成功舉辦。 2023年7月8日,華為開發者大會2023(cloud)“開發者生態創新發展圓桌會議”在東莞華為溪流背坡村成功舉辦。以大模型為代表的的新一輪人工智能技術浪潮洶涌而來,在圓桌會議上,華為技術專 ......

    uj5u.com 2023-07-11 07:59:06 more
  • Stable Diffusion AIGC:3步成為P圖大師

    摘要:instructPix2Pix文字編輯圖片是一種純文本編輯影像的方法,用戶提供一張圖片和文本編輯指令,告訴模型要做什么,模型根據編輯指令編輯輸入的影像,最終輸出用戶想要的影像。 本文分享自華為云社區《【云駐共創】Stable Diffusion AIGC限時0元!3步成為P圖大師》,作者:香菜 ......

    uj5u.com 2023-07-11 07:58:38 more
  • 云原生周刊:Dapr 完成模糊測驗審計 | 2023.7.10

    ## 開源專案推薦 ### [Shell-operator](https://github.com/flant/shell-operator) Shell-operator 是一個在 Kubernetes 集群中運行事件驅動腳本的工具。 ### [node-problem-detector](htt ......

    uj5u.com 2023-07-11 07:58:19 more
  • 華為云開發者聯盟助力培養數字化人才,加速應用構建質效提升

    摘要:大會第三天依舊熱鬧非凡,精彩活動紛至沓來。眾人矚目的專題論壇如期舉行,專家們圍繞技術開發、行業實踐最新趨勢,分享寶貴經驗和深刻見解。 本文分享自華為云社區《華為云開發者聯盟助力培養數字化人才,加速應用構建質效提升》,作者:華為云社區精選 。 在前兩天的大會期間,我們不僅享受了精彩的云技術盛宴, ......

    uj5u.com 2023-07-11 07:57:55 more