Datawhale X 魔搭 AI夏令营–AIGC Task1

if 1 2024-08-23 16:31:01 阅读 93

Datawhale X 魔搭 AI夏令营–AIGC Task1

文章目录

Datawhale X 魔搭 AI夏令营--AIGC Task1赛事介绍文生图基础知识介绍实践操作step0：开通阿里云PAI-DSW试用step1：报名赛事step2：创建PAI实例step3：运行step4：保存、上传最终结果第一组第二组

官方参考

这是Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向），目标是从通过代码实现AI文生图逐渐进阶，偏重图像工作流、微调、图像优化等思路，最后简单了解AIGC应用方向、数字人技术。

赛事介绍

赛事任务：

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格等。基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性

评分标准：本次比赛通过客观评分判断选手提交作品的有效性，但最终评分以主观评分为准。

主观评分：由评委对参赛作品进行投票，评审标准可以从技术运用（40%）、组图风格连贯性（30%）、整体视觉效果（30%）几方面进行评判投票。客观评分：美学分数仅作评价提交是否有效的标准，其中美学分数小于6（阈值可能根据比赛的实际情况调整，解释权归主办方所有）的提交被视为无效提交，无法参与主观评分。

此外，会核实选手上传的模型文件，选手需提交训练的LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少8张图片和对应 prompt，以便我们能够复现生成效果，对于生成效果明显无法复现的，取消获奖资格。

文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

download_image

提示词prompts

一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家负向prompts如“丑陋、变形、嘈杂、模糊、低对比度”

Lora：Low-Rank Adaptation

LoRA模型是一种轻量级的微调方法，代表低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

这是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件，是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

具体参考图控制类型参见(https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng#SGhSd73NIooluxx7j7UcIz7On0g)

实践操作

step0：开通阿里云PAI-DSW试用

前往阿里云

前往魔搭社区授权

若阿里云试用失败或到期，可以使用魔搭免费GPU额度

step1：报名赛事

可图Kolors-LoRA风格故事挑战赛

step2：创建PAI实例

魔搭社区

step3：运行

下载baseline

git lfs install

git clone https://www.modelscope.cn/datasets/maochase/kolors.git

进入脚本

安装环境，然后重启kernel

Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程DiffSynth-Studio：高效微调训练大模型工具

调整prompt

点击代码框左上角执行按钮（restart kernal and run all cells），最终获得图片（耗时较久），代码块功能：

使用Data-Juicer处理数据，整理训练数据文件使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调加载训练微调后的模型使用微调后的模型，生成用户指定的prompt提示词的图片

注：模型训练完成后，若因error重启kernal，不需要全部重新运行，将涉及部分变量的代码块运行即可，耗时最长的训练部分不需要再次运行

step4：保存、上传

打开终端，移动结果

mkdir /mnt/workspace/kolors/output & cd

cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/

cp /mnt/workspace/kolors/*.jpg /mnt/workspace/kolors/output/

使用通配符*来匹配所有*.jpg

下载结果

上传结果，关闭PAI实例

最终结果

第一组

二次元，日系动漫，一个金色长发碧绿瞳孔小女孩，在家中沙发上坐着，双手托腮，盯着电视机，全身，浅蓝色连衣裙

二次元，日系动漫，演唱会的观众席，人山人海，一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席，舞台上衣着华丽的歌星们在唱歌

二次元，一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席，露出憧憬的神情

二次元，一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙，对着流星许愿，闭着眼睛，十指交叉，侧面

二次元，一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙，在练习室练习唱歌

二次元，一个金色长发碧绿瞳孔小女孩，穿着浅蓝色吊带漏肩连衣裙，在练习室练习唱歌，手持话筒

二次元，一个金色长发碧绿瞳孔小女孩，穿着浅蓝色连衣裙，试衣间里两手交叉，心情忐忑

二次元，一个金色长发碧绿瞳孔小女孩，穿着浅蓝色礼服，连衣裙，在台上唱歌

负prompt：丑陋、变形、嘈杂、模糊、低对比度

第二组

彩铅作画，中国小女孩，羊角辫，低头看狸花猫幼崽彩铅作画，中国小女孩，羊角辫，在前面奔跑，狸花猫幼崽在后面追逐彩铅作画，晚上，漆黑的夜幕，亭子下，中国小女孩，中等长度头发，坐在地上，和狸花猫一起抬头，几颗星星，若隐若现，朦胧彩铅作画，中国女生，12岁，单马尾，上学路上，穿着校服，背着书包，在前面走，狸花猫，在后面，坐着，看着女生彩铅作画，教室里，中国女生，15岁，单马尾，趴在桌子上，睡觉，孤独，思念彩铅作画，房门前，狸花猫，坐着，望着远方，孤独，思念，背面彩铅作画，中国女生，18岁，长发，站在门口，右手扶门，左手拿着帽子，远望，狸花猫，苍老，寿命将尽，毛发干枯，在路上走彩铅作画，中国女生，18岁，长发，站在门口，远望，背对，孤独