Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task02笔记

MrBlackmzq 2024-08-22 17:31:00 阅读 85

Datawhale官方的Task2链接：http://hhttps://datawhaler.feishu.cn/wiki/KxI2wIeAJiRQWhkRt9dcqlNVnFR

往期Task1链接：https://mp.csdn.net/mp_blog/creation/editor/141103197

前沿背景了解

重要性

回顾一下AI生图的历史

AI生图的难点和挑战

通过魔搭社区持续探索AI生图前沿

用AI工具分析代码

使用的AI工具介绍

分析代码的主体架构

提示词：

返回的结果：

逐行解释代码

提示词：

返回的结果：

代码还有疑问

提示词：

实战演练一一基于话剧的连环画制作

数据准备

提示词

执行Task1的30分钟速通Baseline

提示词修改

结果显示：

更多的选择一一浅尝scepter webui

浅尝功能

私有部署

前沿背景了解

重要性

AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式，很早就有专家指出，AIGC将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

对所有人来说，定期关注AI生图的最新能力情况都十分重要：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图

对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容

对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

回顾一下AI生图的历史

早期阶段 (20世纪70年代)

AARON系统：艺术家哈罗德·科恩（Harold Cohen）发明了一个名为AARON的系统，该系统能够通过机械臂输出艺术作品。这是最早的尝试之一，利用计算机技术来创作视觉艺术。

深度学习时代的开端 (2012年)

吴恩达的“猫脸”模型：吴恩达领导的研究团队训练出了一个能够生成“猫脸”图像的深度学习模型。这个模型基于卷积神经网络（CNN），展示了深度学习模型有能力捕捉和生成复杂的图像特征。

图像生成的发展 (2015年)

谷歌的“深梦”(Deep Dream)：谷歌推出了一款名为“深梦”的图像生成工具，它能够对给定的图片应用复杂的视觉变换，产生出具有梦幻效果的新图像。这一工具基于已训练好的卷积神经网络，通过调整网络层的激活来生成新的视觉内容。

当代进展 (2021年)

OpenAI的DALL·E模型：2021年1月，OpenAI发布了一个名为DALL·E的模型，它是GPT-3语言处理模型的一个衍生版本。DALL·E能够根据文本提示生成各种风格的图像，这标志着AI生成图像技术的重大进步。DALL·E的出现表明了机器学习模型不仅能够理解和生成自然语言，还能够将其转化为视觉形式。

在当时，就已经被一些媒体评价为：“ 秒杀50%的设计行业打工人应该是没有问题的，而且是质量和速度双重意义上的“秒杀” ”。

AI生图的难点和挑战

早期手部细节的挑战

手部结构复杂性：手部的形状和姿势变化多样，包含许多关节和手指的相互作用，这使得AI模型难以准确生成手部图像。早期的AI生图模型在生成包含手部的图像时经常会出现错误或不自然的表现。

解决方案探索

关键点标注：一种解决方案是通过对手部的关键点进行标注，帮助模型更好地理解手部结构，例如手掌、拇指和各手指的位置。这种标注有助于提高手部细节的准确性。

AI翻车案例

不一致性：AI生成的图像有时会出现逻辑上的不一致，比如身体部位的数量错误或者不符合解剖学规律的形状。

细节失真：AI可能会在细节处理上出现问题，例如衣物的纹理、物体表面的反射等。

风格不统一：AI生成的图像可能在整体风格上不一致，导致视觉上的不和谐。

AI生图的工作原理

学习与匹配：AI生图模型通过学习大量的图像数据及其描述，试图建立描述与图像特征之间的对应关系。当接收到文字描述时，模型会尝试复现这些特征以生成相应的图像。

有限性和偏差：由于训练数据集的局限性，模型可能无法覆盖所有可能的描述和特征组合，这可能导致生成的图像与预期有所偏差。

科研界的争议

理解世界的能力：尽管AI生图模型能够生成逼真的图像，但它们是否真正理解图像背后的含义仍然是一个开放性问题。这涉及到AI对世界的抽象理解和推理能力。

“AI味”问题：在很多情况下，人们可以轻易识别出AI生成的图像，这是因为这些图像通常具有一些特定的特征，如不自然的细节、不合逻辑的元素或不协调的风格。

辨别技巧

观察细节：仔细检查人物面部特征、特别是眼睛和嘴巴等细节。

分析光线和阴影：检查图片中的光源是否一致，阴影的方向是否与光源相符。

分析像素：放大图片，寻找是否有模糊或像素化的部分。

注意背景：检查背景中是否有不协调的元素，如不平滑的物体边缘或不自然的重复模式。

通过魔搭社区持续探索AI生图前沿

Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主，仅支持英文的prompt，但可图是支持中文的文生图模型，文生图的prompt格式较为固定，魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转)，可以针对600+种不同风格，完善prompt，生成各种风格图片，可以在我们的学习当中使用：

例如：

在某些设计的场景中，我们还希望AI能为我们将特定的文字生成在图片当中，但实际上，这种固定文字生成，往往难度较大，一是具体生成在哪些位置，往往需要人为设定，为了更方便地制作类似这样的海报还产生了PS等图片编辑工具，才能实现相应的效果，想要让AI稳定生成相似效果的图片可想而知难度之大。

像我们Task1中介绍的 创意海报生成 工具，早已在代码中固定了相应的文字位置和对应的字体，才能进行相应的生成，且大概率是进行了两个步骤——

一个步骤是AI生成背景，

另一个步骤是通过代码将对应的文字显示到对应位置，

然后渲染，合成图片，给到我们。

下面是我生成的内容

事实上，我们可以通过魔搭社区上感兴趣的工具，尝试思考——

可以用在哪些业务里？有哪些行业在使用？

用的是哪个 AI 模型？

是自己部署的AI模型，还是用的API？

使用到了哪些 AI 能力？

如果要复现，需要做哪些额外的设置和开发？

还可以有哪些优化点？

最方便的是，我们还可以直接点到空间文件，进行相关代码的查看甚至下载在本地/云服务器复现，以验证思考 & 学习相关的设计开发：

魔搭社区还有各种资料，可以供我们学习&探索AI生图的前沿：

用AI工具分析代码

使用的AI工具介绍

本次使用的AI工具为通义千问，它是具有信息查询、语言理解、文本创作等多能力的AI助手。（也可以自行选择其他的大语言模型使用，学习过程中不做限制）

作为一个AI助手，通义千问就是你专属的、可随时触达的、24小时随时待命的贴心助教，可以帮助你解决很多学习中遇到的问题。

关于代码阅读和理解，我们今天尝试让AI助手从两个角度帮助我们：

分析代码的主题架构；

逐行代码解析。

整理所有代码如下：

<code>!pip install simple-aesthetics-predictor

!pip install -v -e data-juicer

!pip uninstall pytorch-lightning -y

!pip install peft lightning pandas torchvision

!pip install -e DiffSynth-Studio

from modelscope.msdatasets import MsDataset

ds = MsDataset.load(

'AI-ModelScope/lowres_anime',

subset_name='default',code>

split='train',code>

cache_dir="/mnt/workspace/kolors/data"code>

)

import json, os

from data_juicer.utils.mm_utils import SpecialTokens

from tqdm import tqdm

os.makedirs("./data/lora_dataset/train", exist_ok=True)

os.makedirs("./data/data-juicer/input", exist_ok=True)

with open("./data/data-juicer/input/metadata.jsonl", "w") as f:

for data_id, data in enumerate(tqdm(ds)):

image = data["image"].convert("RGB")

image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")

metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}

f.write(json.dumps(metadata))

f.write("\n")

data_juicer_config = """

# global parameters

project_name: 'data-process'

dataset_path: './data/data-juicer/input/metadata.jsonl' # path to your dataset directory or file

np: 4 # number of subprocess to process your dataset

text_keys: 'text'

image_key: 'image'

image_special_token: '<__dj__image>'

export_path: './data/data-juicer/output/result.jsonl'

# process schedule

# a list of several process operators with their arguments

process:

- image_shape_filter:

min_width: 1024

min_height: 1024

any_or_all: any

- image_aspect_ratio_filter:

min_ratio: 0.5

max_ratio: 2.0

any_or_all: any

"""

with open("data/data-juicer/data_juicer_config.yaml", "w") as file:

file.write(data_juicer_config.strip())

!dj-process --config data/data-juicer/data_juicer_config.yaml

import pandas as pd

import os, json

from PIL import Image

from tqdm import tqdm

texts, file_names = [], []

os.makedirs("./data/data-juicer/output/images", exist_ok=True)

with open("./data/data-juicer/output/result.jsonl", "r") as f:

for line in tqdm(f):

metadata = json.loads(line)

texts.append(metadata["text"])

file_names.append(metadata["image"][0])

df = pd.DataFrame({"text": texts, "file_name": file_names})

df.to_csv("./data/data-juicer/output/result.csv", index=False)

df

from transformers import CLIPProcessor, CLIPModel

import torch

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")

processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

images = [Image.open(img_path) for img_path in df["file_name"]]

inputs = processor(text=df["text"].tolist(), images=images, return_tensors="pt", padding=True)code>

outputs = model(**inputs)

logits_per_image = outputs.logits_per_image # this is the image-text similarity score

probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the probabilities

probs

from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):

def __init__(self, df, processor):

self.texts = df["text"].tolist()

self.images = [Image.open(img_path) for img_path in df["file_name"]]

self.processor = processor

def __len__(self):

return len(self.texts)

def __getitem__(self, idx):

inputs = self.processor(text=self.texts[idx], images=self.images[idx], return_tensors="pt", padding=True)code>

return inputs

dataset = CustomDataset(df, processor)

dataloader = DataLoader(dataset, batch_size=8)

for batch in dataloader:

outputs = model(**batch)

logits_per_image = outputs.logits_per_image

probs = logits_per_image.softmax(dim=1)

print(probs)

import torch

from diffusers import StableDiffusionPipeline

torch.manual_seed(1)

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v-1-4", torch_dtype=torch.float16)

pipe = pipe.to("cuda")

prompt = "二次元，一个紫色长发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒"

negative_prompt = "丑陋、变形、嘈杂、模糊、低对比度"

guidance_scale = 4

num_inference_steps = 50

image = pipe(

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=guidance_scale,

num_inference_steps=num_inference_steps,

height=1024,

width=1024,

).images[0]

image.save("example_image.png")

image

from PIL import Image

torch.manual_seed(1)

image = pipe(

prompt="二次元，日系动漫，演唱会的观众席，人山人海，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，舞台上衣着华丽的歌星们在唱歌",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("1.jpg")

torch.manual_seed(1)

image = pipe(

prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，露出憧憬的神情",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，色情擦边",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("2.jpg")

torch.manual_seed(2)

image = pipe(

prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席，露出憧憬的神情",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，色情擦边",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("3.jpg")

torch.manual_seed(5)

image = pipe(

prompt="二次元，一个紫色短发小女孩穿着粉色吊带漏肩连衣裙，对着流星许愿，闭着眼睛，十指交叉，侧面",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度，扭曲的手指，多余的手指",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("4.jpg")

torch.manual_seed(0)

image = pipe(

prompt="二次元，一个紫色中等长度头发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("5.jpg")

torch.manual_seed(1)

image = pipe(

prompt="二次元，一个紫色长发小女孩穿着粉色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("6.jpg")

torch.manual_seed(7)

image = pipe(

prompt="二次元，紫色长发少女，穿着黑色连衣裙，试衣间，心情忐忑",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("7.jpg")

torch.manual_seed(0)

image = pipe(

prompt="二次元，紫色长发少女，穿着黑色礼服，连衣裙，在台上唱歌",code>

negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",code>

cfg_scale=4,

num_inference_steps=50, height=1024, width=1024,

)

image.save("8.jpg")

import numpy as np

from PIL import Image

images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]

image = np.concatenate([

np.concatenate(images[0:2], axis=1),

np.concatenate(images[2:4], axis=1),

np.concatenate(images[4:6], axis=1),

np.concatenate(images[6:8], axis=1),

], axis=0)

image = Image.fromarray(image).resize((1024, 2048))

image

`分析代码的主体架构`

 提示词：
   
  
 你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{此处替换前面的代码}
  
 返回的结果：
 这段代码主要分为以下几个部分：
 
安装和卸载依赖包
 
 
使用 !pip 命令来安装或卸载 Python 包。包括：
 
 
simple-aesthetics-predictor, data-juicer, peft, lightning, pandas, torchvision, 和 DiffSynth-Studio 的安装。
 
卸载 pytorch-lightning（使用 -y 自动确认卸载）。
 
加载数据集
 
 
使用 ModelScope 的 MsDataset 类加载名为 AI-ModelScope/lowres_anime 的数据集，并指定子集名称为 default 和分割为 train，缓存目录设置为 /mnt/workspace/kolors/data。
 
数据预处理
 
 
将数据集中的图像转换为 RGB 模式，并保存到指定目录。
 
创建包含图像路径和文本描述的元数据文件 metadata.jsonl。
 
编写并保存 data_juicer_config.yaml 配置文件，用于后续的数据过滤和处理。
 
使用 Data-Juicer 进行数据处理
 
 
使用 dj-process 命令根据配置文件对数据进行过滤和处理，生成 result.jsonl 文件。
 
数据整理与训练
 
 
读取 result.jsonl 文件中的数据，并将其转换为 Pandas DataFrame，然后保存为 CSV 文件，并且将图片保存到./data/lora_dataset_processed/train文件夹下。
 
下载模型download_models(["Kolors", "SDXL-vae-fp16-fix"])
 
在前面模型的基础上，执行Lora微调训练
 
加载微调后的模型
 
图像生成
 
 
设置正向提示词，反向提示词，执行次数，图片尺寸
 
设置随机种子，控制图片是否可以重复生成，并将图像保存为 .jpg 文件。
 
合并图像
 
 
最后，将生成的多个图像合并成一个大图像，并调整大小。
 
整个流程涵盖了从数据加载、预处理、特征提取、模型预测到图像生成等多个方面。每一部分都有其特定的功能，共同构成了一个完整的二次元图像处理和生成的工作流。
 
逐行解释代码
 提示词：
   
  
 你是一个优秀的python开发工程师，现在我们需要你帮我们逐行分析这个代码，用中文回答我的问题。{此处替换前面的代码}
  
 返回的结果：
 这段代码主要完成以下功能：
 
 
安装和卸载一些Python包。
 
从ModelScope加载一个名为lowres_anime的数据集，并保存图像到指定目录。
 
创建并处理一个用于数据清洗的JSONL文件。
 
使用data-juicer工具过滤和处理数据集。
 
将处理后的数据集转换为CSV格式。
 
根据数据集通过DiffSynth做Lora微调
 
加载Lora微调后的模型
 
设置提示词，用微调后的模型生成图片
 
下面是逐行代码及其中文注释：
 
# 安装 Data-Juicer 和 DiffSynth-Studio
!pip install simple-aesthetics-predictor # 安装simple-aesthetics-predictor
!pip install -v -e data-juicer # 安装data-juicer
!pip uninstall pytorch-lightning -y # 卸载pytorch-lightning
!pip install peft lightning pandas torchvision # 安装 peft lightning pandas torchvision
!pip install -e DiffSynth-Studio # 安装DiffSynth-Studio
# 从魔搭数据集中下载数据集AI-ModelScope/lowres_anime
from modelscope.msdatasets import MsDataset #引入数据集模块msdatasets
ds = MsDataset.load(
 'AI-ModelScope/lowres_anime',
 subset_name='default',code>
 split='train',code>
 cache_dir="/mnt/workspace/kolors/data" # 指定缓存目录code>
) # 从魔搭数据集中下载数据集AI-ModelScope/lowres_anime，赋值给参数ds
# 生成数据集
import json, os # 导入json和os模块
from data_juicer.utils.mm_utils import SpecialTokens # 导入SpecialTokens
from tqdm import tqdm # 导入tqdm进度条管理
os.makedirs("./data/lora_dataset/train", exist_ok=True) # 创建文件夹./data/lora_dataset/train
os.makedirs("./data/data-juicer/input", exist_ok=True) # 创建文件夹./data/data-juicer/input
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:
 for data_id, data in enumerate(tqdm(ds)): # 遍历数据集ds
 image = data["image"].convert("RGB") # 将数据集的图片转换为RGB
 image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg") # 保存数据集的图片
 metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]} # 生成当前图片的索引数据
 f.write(json.dumps(metadata)) # 将索引数据写入文件./data/data-juicer/input/metadata.jsonl
 f.write("\n")
# 配置data-juicer，并进行数据筛选过滤
# 配置过滤的规则
data_juicer_config = """
# global parameters
project_name: 'data-process' # 名称
dataset_path: './data/data-juicer/input/metadata.jsonl' # 你前面生成的数据的索引文件
np: 4 # 线程数
text_keys: 'text' # 文件./data/data-juicer/input/metadata.jsonl的描述的字段名
image_key: 'image' # 文件./data/data-juicer/input/metadata.jsonl的图片字段名
image_special_token: '<__dj__image>'
export_path: './data/data-juicer/output/result.jsonl' # 筛选通过的图片结果保存的的索引文件
# process schedule
# a list of several process operators with their arguments
# 过滤的规则
process:
 - image_shape_filter: # 图片尺寸过滤
 min_width: 1024 # 最小宽度1024
 min_height: 1024 # 最小高度1024
 any_or_all: any # 符合前面条件的图片才会被保留
 - image_aspect_ratio_filter: # 图片长宽比过滤
 min_ratio: 0.5 # 最小长宽比0.5
 max_ratio: 2.0 # 最大长宽比2.0
 any_or_all: any # 符合前面条件的图片才会被保留
"""
# 保存data-juicer配置到data/data-juicer/data_juicer_config.yaml
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
 file.write(data_juicer_config.strip())
# data-juicer开始执行数据筛选
!dj-process --config data/data-juicer/data_juicer_config.yaml
# 通过前面通过data-juicer筛选的图片索引信息./data/data-juicer/output/result.jsonl，生成数据集
import pandas as pd # 导入pandas
import os, json # 导入os和json
from PIL import Image # 导入Image
from tqdm import tqdm # 导入tqdm进度条管理
texts, file_names = [], [] # 定义两个空列表，分别存储图片描述和图片名称
os.makedirs("./data/lora_dataset_processed/train", exist_ok=True) # 创建文件夹./data/lora_dataset_processed/train
with open("./data/data-juicer/output/result.jsonl", "r") as file: # 打开前面data-juicer筛选的图片索引文件./data/data-juicer/output/result.jsonl
 for data_id, data in enumerate(tqdm(file.readlines())): # 遍历文件./data/data-juicer/output/result.jsonl
 data = json.loads(data) # 将json字符串转换为对象
 text = data["text"] # 获取对象中的text属性，也就是图片的描述信息
 texts.append(text) # 将图片的描述信息添加到texts列表中
 image = Image.open(data["image"][0]) # 获取对象中的image属性，也就是图片的路径,然后用这个路径打开图片
 image_path = f"./data/lora_dataset_processed/train/{data_id}.jpg" # 生成保存图片的路径
 image.save(image_path) # 将图片保存到./data/lora_dataset_processed/train文件夹中
 file_names.append(f"{data_id}.jpg") # 将图片名称添加到file_names列表中
data_frame = pd.DataFrame() # 创建空的DataFrame
data_frame["file_name"] = file_names # 将图片名称添加到data_frame中
data_frame["text"] = texts # 将图片描述添加到data_frame中
data_frame.to_csv("./data/lora_dataset_processed/train/metadata.csv", index=False, encoding="utf-8-sig") # 将data_frame保存到./data/lora_dataset_processed/train/metadata.csvcode>
data_frame # 查看data_frame
# 下载可图模型
from diffsynth import download_models # 导入download_models
download_models(["Kolors", "SDXL-vae-fp16-fix"]) # 下载可图模型
# DiffSynth-Studio提供了可图的Lora训练脚本，查看脚本信息
!python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py -h
# 执行可图Lora训练
import os
cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
 --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
 --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
 --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
 --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时，选择了使用 16 作为秩，适合在不显著降低模型性能的前提下，通过 LoRA 减少计算和内存的需求
 --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值，影响调整的强度
 --dataset_path data/lora_dataset_processed \ # 指定数据集路径，用于训练模型
 --output_path ./models \ # 指定输出路径，用于保存模型
 --max_epochs 1 \ # 设置最大训练轮数为 1
 --center_crop \ # 启用中心裁剪，这通常用于图像预处理
 --use_gradient_checkpointing \ # 启用梯度检查点技术，以节省内存
 --precision "16-mixed" # 指定训练时的精度为混合 16 位精度（half precision），这可以加速训练并减少显存使用
""".strip()
os.system(cmd) # 执行可图Lora训练
# 加载lora微调后的模型
from diffsynth import ModelManager, SDXLImagePipeline # 导入ModelManager和SDXLImagePipeline
from peft import LoraConfig, inject_adapter_in_model # 导入LoraConfig和inject_adapter_in_model
import torch # 导入torch
# 加载LoRA配置并注入模型
def load_lora(model, lora_rank, lora_alpha, lora_path):
 lora_config = LoraConfig(
 r=lora_rank, # 设置LoRA的秩(rank)
 lora_alpha=lora_alpha, # 设置LoRA的alpha值，控制LoRA的影响权重
 init_lora_weights="gaussian", # 初始化LoRA权重为高斯分布code>
 target_modules=["to_q", "to_k", "to_v", "to_out"], # 指定要应用LoRA的模块
 )
 model = inject_adapter_in_model(lora_config, model) # 将LoRA配置注入到模型中
 state_dict = torch.load(lora_path, map_location="cpu") # 加载LoRA微调后的权重code>
 model.load_state_dict(state_dict, strict=False) # 将权重加载到模型中，允许部分权重不匹配
 return model # 返回注入LoRA后的模型
# 加载预训练模型
model_manager = ModelManager(
 torch_dtype=torch.float16, # 设置模型的数据类型为float16，减少显存占用
 device="cuda", # 指定使用GPU进行计算code>
 file_path_list=[
 "models/kolors/Kolors/text_encoder", # 文本编码器的路径
 "models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors", # UNet模型的路径
 "models/kolors/Kolors/vae/diffusion_pytorch_model.safetensors" # VAE模型的路径
 ]
)
# 初始化图像生成管道
pipe = SDXLImagePipeline.from_model_manager(model_manager) # 从模型管理器中加载模型并初始化管道
# 加载并应用LoRA权重到UNet模型
pipe.unet = load_lora(
 pipe.unet, 
 lora_rank=16, # 设置LoRA的秩(rank)，与训练脚本中的参数保持一致
 lora_alpha=2.0, # 设置LoRA的alpha值，控制LoRA对模型的影响权重
 lora_path="models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt" # 指定LoRA权重的文件路径code>
)
# 生成图像
torch.manual_seed(0) # 设置随机种子，确保生成的图像具有可重复性。如果想要每次生成不同的图像，可以将种子值改为随机值。
image = pipe(
 prompt="二次元，一个紫色短发小女孩，在家中沙发上坐着，双手托着腮，很无聊，全身，粉色连衣裙", # 设置正向提示词，用于指导模型生成图像的内容code>
 negative_prompt="丑陋、变形、嘈杂、模糊、低对比度", # 设置负向提示词，模型会避免生成包含这些特征的图像code>
 cfg_scale=4, # 设置分类自由度 (Classifier-Free Guidance) 的比例，数值越高，模型越严格地遵循提示词
 num_inference_steps=50, # 设置推理步数，步数越多，生成的图像细节越丰富，但生成时间也更长
 height=1024, width=1024, # 设置生成图像的高度和宽度，这里生成 1024x1024 像素的图像
)
image.save("1.jpg") # 将生成的图像保存为 "1.jpg" 文件
# 图像拼接，展示总体拼接大图
import numpy as np # 导入numpy库，用于处理数组和数值计算
from PIL import Image # 导入PIL库中的Image模块，用于图像处理
images = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)] # 读取1.jpg到8.jpg的图像，转换为numpy数组，并存储在列表images中
image = np.concatenate([ # 将四组图像在垂直方向上拼接
 np.concatenate(images[0:2], axis=1), # 将第1组（images[0:2]）的两张图像在水平方向上拼接
 np.concatenate(images[2:4], axis=1), # 将第2组（images[2:4]）的两张图像在水平方向上拼接
 np.concatenate(images[4:6], axis=1), # 将第3组（images[4:6]）的两张图像在水平方向上拼接
 np.concatenate(images[6:8], axis=1), # 将第4组（images[6:8]）的两张图像在水平方向上拼接
], axis=0) # 将四组拼接后的图像在垂直方向上拼接
image = Image.fromarray(image).resize((1024, 2048)) # 将拼接后的numpy数组转换为图像对象，并调整大小为1024x2048像素
image # 输出最终生成的图像对象，用于显示图像
 
代码还有疑问
 在刚刚逐行解析结果页后面继续追问
 
提示词：
   
  
 我对其中{替换成你的问题}还是不太理解，给我再详细介绍一下
  
 最后，希望大家养成使用AI的习惯，擅用AI，帮你的工作和学习事半功倍。
 
实战演练一一基于话剧的连环画制作
 数据准备
 自己设想了一个简单的故事
 
提示词
   
  
 你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧 话剧由8张场景图片生成，你需要输出每张图片的生图提示词 具体的场景图片
  
  
  
 1、男主正在上课
  
  
  
 2、开始睡着了
  
  
  
 3、进入梦乡，梦到自己坐在机甲操控室里
  
  
  
 4、操控机甲大战怪物
  
  
  
 5、怪物被打败了
  
  
  
 6、男主接受人们的欢呼
  
  
  
 7、下课了，梦醒了
  
  
  
 8、又回到了学习生活中
  
  
  
 生图提示词要求 1、风格为科幻风 2、根据场景确定是使用全身还是上半身 3、人物描述 4、场景描述 5、做啥事情
  
  
  
 例子： 科幻风，漫画，一个青色短发少年，坐在教室里，盯着黑板，深思，上半身，红色半袖
  
 询问通义
 
 
最终整理出来场景表格
 
    图片编号
   场景描述
   正向提示词
   反向提示词
  
   图片1
  男主正在上课  科幻风，青色短发少年穿着红色半袖衬衫，在充满未来科技感的教室里，专注地注视着全息投影的黑板   丑陋，变形，嘈杂，模糊，低对比度
  
   图片2
   开始睡着了
  科幻风，青色短发少年穿着红色半袖衬衫，在教室座位上，头歪向一边，闭眼微笑，似乎正陷入梦乡   丑陋，变形，嘈杂，模糊，低对比度
  
   图片3
  进入梦乡，梦到自己坐在机甲操控室里  科幻风，青色短发少年穿着红色半袖衬衫，手握操纵杆，表情认真地坐在巨大机甲的高科技操控室内   丑陋，变形，嘈杂，模糊，低对比度
  
   图片4
  操控机甲大战怪物  科幻风，青色短发少年穿着红色半袖衬衫，在城市废墟之上，紧张地操作着控制台，机甲与巨大的外星生物激烈交战   丑陋，变形，嘈杂，模糊，低对比度
  
   图片5
  怪物被打败了  科幻风，青色短发少年穿着红色半袖衬衫，在城市废墟之上，挥拳庆祝胜利，机甲站在倒下的怪物旁边   丑陋，变形，嘈杂，模糊，低对比度
  
   图片6
  男主接受人们的欢呼  科幻风，青色短发少年穿着红色半袖衬衫，在城市中心广场，双手高举，面带微笑地向欢呼的人群挥手   丑陋，变形，嘈杂，模糊，低对比度
  
   图片7
   下课了，梦醒了
  科幻风，青色短发少年穿着红色半袖衬衫，在教室里擦擦眼睛，表情迷茫，似乎刚从梦中醒来   丑陋，变形，嘈杂，模糊，低对比度
  
   图片8
   又回到了学习生活中
  科幻风，青色短发少年穿着红色半袖衬衫，在教室里低头认真看书，回归到日常的学习生活   丑陋，变形，嘈杂，模糊，低对比度
  
 
 执行Task1的30分钟速通Baseline
 从零入门AI生图原理&实践
 
 
提示词修改
  
双击进入baseline文件
 
找到生成图像的板块
 
依次替换8张图片的正向提示词和反向提示词
 
此外，还可以注释掉 torch.manual_seed() 方法取消对种子的控制，做到随机出图。torch.manual_seed()是设置CPU生成随机数的种子，方便下次复现实验结果。所以这个方法传参相当于设置了控制了出图。括号中的数值不同则图片不同。
 
出图的 steps可以适当增加，让AI渲染的次数更深一些，但需要注意的是，过大的steps也会导致图片变得崩坏，要取适当的参数量。
 
 
结果显示：
 
 
更多的选择一一浅尝scepter webui
 浅尝功能
 魔搭体验网址：https://www.modelscope.cn/studios/iic/scepter_studio
 
 
 
 私有部署
  提供的体验地址里面缺失了微调模型的功能，如果大家希望能使用secpter完整的功能，我们可以将其私有部署到我们自己的服务器。
 
github地址：https://github.com/modelscope/scepter
 
可以通过官方readme文件中的教程进行操作，该模块对基础有一定的要求，适合学有余力的同学
 
PS：如果在安装中遇到各种问题，别忘了这节课的老朋友，尽管向通义等AI工具提问
 
 
感谢您的参与，让我们共同探索AI的无限可能！我们下期再见

 
 
   上一篇： 【整理快速通道】python语法import速查  
  下一篇： 2024年最全整理了 47 个 Python 人工智能库 
  本文标签 
  Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02笔记    
 
  
  声明
  本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
 如有涉及侵权，请联系本站进行删除
 转载本站原创文章，请注明来源及作者。