Stable Diffusion 原理介绍与源码分析（一）

珍妮的选择 2024-07-06 09:31:03 阅读 50

Stable Diffusion 原理介绍与源码分析（一）

文章目录

Stable Diffusion 原理介绍与源码分析（一）前言（与正文无关，可以忽略）总览说明Stable Diffusion 整体框架重要论文重要组成模块分析UNetModel 介绍ResBlock 的实现timestep_embedding 实现Prompt 文本 embedding 的实现SpatialTransformer 的实现

小结

前言（与正文无关，可以忽略）

Stable Diffusion 是 Stability AI 公司开源的 AI 文生图扩散模型。之前在文章扩散模型 (Diffusion Model) 简要介绍与源码分析中介绍了扩散模型的原理与部分算法代码，满足基本的好奇心后便将其束之高阁，没成想近期 AIGC 的发展速度之快大大出乎我的意料，尤其是亲手跑出下面这张 AI 生成的图像， Stable Diffusion 终又重新回到我的视野：

作为一名算法工程师，需要有一双能看透事物本质的眼睛，这张图片最先吸引我的不是内容，而是其生成质量：图像高清、细节丰富，非之前看到的一些粗陋 Toy 可比，红框中标注出来的不协调之处，也是瑕不掩瑜。因此，进一步分析 Stable Diffusion 整个工程框架的原理，实在是迫在眉睫，期待日后能修复红框中的不协调之处，为 AIGC 的进一步发展做出一个技术人员应有的贡献。

总览

Stable Diffusion 整个框架的源码有上万行，没有必要全部分析。本文以 “文本生成图像（text to image）” 为主线，考察 Stable Diffusion 的运行流程以及各个重要的组成模块，在介绍时采用 “总-分” 的形式，先概括整体框架，再分析各个组件（如 DDPM、DDIM 等），另外针对代码中的部分非主流逻辑，比如 predict_cids、return_ids 这些小细节谈谈我的看法。文章内容较长，准备拆分成多个部分。

源码地址：Stable Diffusion