【人工智能】Transformers之Pipeline（八）：文生图/图生图（text-to-image/image-to-image）

CSDN 2024-08-09 12:01:03 阅读 64

一、引言

二、文生图/图生图（text-to-image/image-to-image）

2.1 文生图

2.2 图生图

2.3 技术原理

2.3.1 Diffusion扩散模型原理

2.3.2 Stable Diffusion扩散模型原理

2.4 文生图实战

2.4.1 SDXL 1.0

2.4.2 SD 2.0

2.5 模型排名

三、总结

一、引言

pipeline（管道）是huggingface transformers库中一种极简方式使用大模型推理的抽象，将所有大模型分为音频（Audio）、计算机视觉（Computer vision）、自然语言处理（NLP）、多模态（Multimodal）等4大类，28小类任务（tasks）。共计覆盖32万个模型

今天介绍CV计算机视觉的第四篇，文生图/图生图（text-to-image/image-to-image）。transformers的pipeline只有图生图（image-to-image），没有（text-to-image），在实际应用中，文生图更加主流，通常先进行文生图，再进行图生图。所以本篇文章重点介绍文生图，附带进行图生图的讲解。本篇也未使用transformers的pipeline，而是使用DiffusionPipeline，目前主流的文生图、图生图方法。本文更加注重如何使用代码进行文生图、图生图，如果你的工作不需要部署api服务，推荐您使用AUTOMATIC1111的stable-diffusion-webui。

如果您是windows，建议搜索“秋叶大佬整合包”，一键部署属于你的文生图工作台。

当然，如果您的土豪，推荐您使用midjourney，封装的更加简单易用。

二、文生图/图生图（text-to-image/image-to-image）

2.1 文生图

输入提示词，模型理解提示词，生成图片。

2.2 图生图

图像处理与增强，通过给定的提示词，对源图像进行加工与处理，使其满足清晰度、定制等需求。

2.3 技术原理

我们以Stable Diffusion为例，讲讲文生图/图生图的原理。

2.3.1 Diffusion扩散模型原理

将到扩散模型，一定要了解DDPM: Denoising Diffusion Probabilistic Models（基于概率的降噪扩散模型），主要包含两个过程：

Diffusion Process (又被称为Forward Process) 扩散过程：对图片进行加噪，每一步都往图片上加入一个高斯分布的噪声，直到图片变为一个基本是纯高斯分布的噪声Denoise Process（又被称为Reverse Process）降噪过程：基于UNet对含有噪音的图片进行逐步还原，直到还原至清晰可见的图片。

2.3.2 Stable Diffusion扩散模型原理

主要由AutoEncoder、扩散模型和Condition条件模块三部分组成。具体方法是

首先需要训练好一个自编码模型（AutoEncoder，包括一个编码器 E和一个解码器D ）。

扩散过程：利用编码器对图片进行压缩，然后在潜在表示空间上做diffusion操作，文本处理：SD采用OpenAI的CLIP（Contrastive Language-Image Pre-Training语言图片对比学习预训练模型）进行文字到图片的处理，具体使用的是clip-vit-large-patch14。对于输入text，送入CLIP text encoder后得到最后的hidden states，其特征维度大小为77x768（77是token的数量），这个细粒度的text embeddings将以cross attention的方式送入UNet中。去噪过程：去噪实际上就是SD文生图模型的推理过程，通过UNet网络对图片/文字的embedding层层去噪，得到最终需要的图片。

2.4 文生图实战

2.4.1 SDXL 1.0

首先要安装扩散diffusers、invisible_watermark、transformers、accelerate、safetensors等依赖库：

<code>pip install diffusers invisible_watermark transformers accelerate safetensors -i https://mirrors.cloud.tencent.com/pypi/simple

其次，引用diffusers库中的DiffusionPipeline类，下载基础模型stabilityai/stable-diffusion-xl-base-1.0和精炼模型stabilityai/stable-diffusion-xl-refiner-1.0。使用基础base（文生图）模型生成（噪声）潜在数据，然后使用专门去噪的refiner（图生图）细化模型进行高分辨率去噪处理。

<code>import os

os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

os.environ["CUDA_VISIBLE_DEVICES"] = "2"

from diffusers import DiffusionPipeline

import torch

base = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")code>

base.to("cuda")

refiner = DiffusionPipeline.from_pretrained(

"stabilityai/stable-diffusion-xl-refiner-1.0",

text_encoder_2=base.text_encoder_2,

vae=base.vae,

torch_dtype=torch.float16,

use_safetensors=True,

variant="fp16",code>

)

refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here

n_steps = 40

high_noise_frac = 0.8

prompt = "A beautiful sexy girl"

# run both experts

image = base(

prompt=prompt,

num_inference_steps=n_steps,

denoising_end=high_noise_frac,

output_type="latent",code>

).images

image = refiner(

prompt=prompt,

num_inference_steps=n_steps,

denoising_start=high_noise_frac,

image=image,

).images[0]

image.save("base+refiner.png")

python run_sd_xl_base_1.0+refiner.py运行后：

来看一下针对提示词"A beautiful sexy girl"生成的图片，好棒！

`2.4.2 SD 2.0`

 安装的python库同SDXL 1.0，同样采用diffusers的DiffusionPipeline下载模型
 <code>import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
from diffusers import DiffusionPipeline
import torch
#pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")code>
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")code>
pipe.to("cuda")
prompt = "a beautiful sexy girl"
image = pipe(prompt).images[0]
image.save("sd-xl.png") 
python run_sd.py运行后 
 
 
来看一下效果：
 
 
对比来看，SDXL 1.0要更强一些，当然在实际的应用中，要花非常多的精力去抽卡、调正反向提示词，前往C站下载并使用别人训练好的lora与embedding。这是一门大学问。
 
2.5 模型排名
 在huggingface上，我们将文生图（text-to-image）模型按下载量从高到低排序：在开源模型领域，stabilityai的stable-diffusion没有对手！闭源领域，独有Midjourney！
 
 
三、总结
 本文对文生图/图生图（text-to-image/image-to-image）从概述、SD技术原理、SD文生图实战、模型排名等方面进行介绍，读者可以基于DiffusionPipeline使用文中的极简代码进行文生图的初步体验，如果想更加深入的了解，再次推荐您使用stable-diffusion-webui。
 
 
期待您的3连+关注，如何还有时间，欢迎阅读我的其他文章：
 
《Transformers-Pipeline概述》
 
【人工智能】Transformers之Pipeline（概述）：30w+大模型极简应用
 
《Transformers-Pipeline 第一章：音频（Audio）篇》
 
【人工智能】Transformers之Pipeline（一）：音频分类（audio-classification）
 
【人工智能】Transformers之Pipeline（二）：自动语音识别（automatic-speech-recognition）
 
【人工智能】Transformers之Pipeline（三）：文本转音频（text-to-audio/text-to-speech）
 
【人工智能】Transformers之Pipeline（四）：零样本音频分类（zero-shot-audio-classification）
 
《Transformers-Pipeline 第二章：计算机视觉（CV）篇》
 
【人工智能】Transformers之Pipeline（五）：深度估计（depth-estimation）
 
【人工智能】Transformers之Pipeline（六）：图像分类（image-classification）
 
【人工智能】Transformers之Pipeline（七）：图像分割（image-segmentation）
 
【人工智能】Transformers之Pipeline（八）：图生图（image-to-image）
 
【人工智能】Transformers之Pipeline（九）：物体检测（object-detection）
 
【人工智能】Transformers之Pipeline（十）：视频分类（video-classification）
 
【人工智能】Transformers之Pipeline（十一）：零样本图片分类（zero-shot-image-classification）
 
【人工智能】Transformers之Pipeline（十二）：零样本物体检测（zero-shot-object-detection）
 
《Transformers-Pipeline 第三章：自然语言处理（NLP）篇》
 
【人工智能】Transformers之Pipeline（十三）：填充蒙版（fill-mask）
 
【人工智能】Transformers之Pipeline（十四）：问答（question-answering）
 
【人工智能】Transformers之Pipeline（十五）：总结（summarization）
 
【人工智能】Transformers之Pipeline（十六）：表格问答（table-question-answering）
 
【人工智能】Transformers之Pipeline（十七）：文本分类（text-classification）
 
【人工智能】Transformers之Pipeline（十八）：文本生成（text-generation）
 
【人工智能】Transformers之Pipeline（十九）：文生文（text2text-generation）
 
【人工智能】Transformers之Pipeline（二十）：令牌分类（token-classification）
 
【人工智能】Transformers之Pipeline（二十一）：翻译（translation）
 
【人工智能】Transformers之Pipeline（二十二）：零样本文本分类（zero-shot-classification）
 
《Transformers-Pipeline 第四章：多模态（Multimodal）篇》
 
【人工智能】Transformers之Pipeline（二十三）：文档问答（document-question-answering）
 
【人工智能】Transformers之Pipeline（二十四）：特征抽取（feature-extraction）
 
【人工智能】Transformers之Pipeline（二十五）：图片特征抽取（image-feature-extraction）
 
【人工智能】Transformers之Pipeline（二十六）：图片转文本（image-to-text）
 
【人工智能】Transformers之Pipeline（二十七）：掩码生成（mask-generation）
 
【人工智能】Transformers之Pipeline（二十八）：视觉问答（visual-question-answering）

 
 
   上一篇： 怎么搭建AI带货直播间生成虚拟主播? 
  下一篇： 如何通过【腾讯云 AI 代码助手】快速解决商城项目难题 
  本文标签 
  【人工智能】Transformers之Pipeline（八）：文生图/图生图（text-to-image/image-to-image）    
 
  
  声明
  本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
 如有涉及侵权，请联系本站进行删除
 转载本站原创文章，请注明来源及作者。

【人工智能】Transformers之Pipeline（八）：文生图/图生图（text-to-image/image-to-image）

一、引言