使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】

红鼠爱学习 2024-07-28 08:01:04 阅读 65

使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】

StableDiffusion安装-请访问下面文章

TTS 也就是 Text-to-speech 文字转语音

有问题可以私信

sad talker安装流程.

下载sadTalker插件所需要的模型与离线包文件

checkpoint文件下载和配置

GFPGAN模型下载-人脸增强模型

数字人效果请访问下面链接

StableDiffusion安装-请访问下面文章

5分钟 Stable Diffusion 本地安装-本地部署（秋叶整合包）【Stable Diffusion 实战教程】_stable diffusion 秋叶整合包-CSDN博客

5分钟安装包，Stable Diffusion-安装（整合版），点击链接即可保存。

链接：夸克网盘分享

提取码：vSjh

TTS 也就是 Text-to-speech 文字转语音

TTS 也就是 Text-to-speech，文字转语音可以说是视频创作者的福音了，前有剪映的小帅小美，后有 AI 音频爆发后的各种声音，通过消除对配音演员和录制会话的需求，大大减少了制作时间和成本。现在可以凭借 AI 音频多样化的可自定义语音和口音，使得创作者能够提高视频和语音内容的质量、创作更多引人入胜的内容，更好的吸引观众并将他们的视频提升到一个新的水平。下面将给给大家介绍几款主流好用的 TTS 类音频软件：

/uploads/2024/07/28/1722124877847022542.webp

一款免费的语音转文字的线上应用，短小精悍，页面十分简洁，基本上属于上手就能用的软件，不需要配置各种代码，内置了已经训练好的几十种声音可供选择，包括不但不限于：中文及各国语言，甚至还有粤语等方言，甚至还有经典的渣渣辉的声音。用来直接做短视频的配音还是很有特色的。一大亮点在于内置了训练好的各种游戏或动画中二次元角色的声音，可以直接使用，做短视频或者有兴趣的同学可以打开思路进行创作。

有问题可以私信

sad talker安装流程.

打开stable diffusion 中扩展栏目，从网页下载sad talker插件，下载完之后可以在installed处检查会出现sadtalker的标志，如果有就下载成功了，如果没有可能是因为网络原因，多试几次，如果不行那就上gitup下载，并把下载后的插件放到sd栏目中的，E:\stable-diffusion-webui\extensions文件中。

打开 Stable Diffusion WebUI 选择 Extensions -》从 URL 安装，安装地址填写：https://github.com/OpenTalker/SadTalker

下载sadTalker插件所需要的模型与离线包文件

在我们第一步安装插件后，大家重启webui便能看到SadTalker的tab选项，如下所示：

但是 sadtalker 的插件的运行需要我们下载两部分内容，一部分是checkpoint，一部分是GFPGAN模型.

/uploads/2024/07/28/1722124874686040014.webp

checkpoint文件下载和配置

checkpoint ：指的是运行sadtalker插件需要的基础模型，如：预训练模型、构造脸部说话姿势等工具模型。下面提供两种下载地址：

1、网页端下载，请按下图红框框出来的模型下载

首先打开网址：Releases · OpenTalker/SadTalker · GitHub。

先下载这4个文件

/uploads/2024/07/28/1722124872301064347.webp

当前界面一直往下滑，再下载8个文件：

/uploads/2024/07/28/1722124873339093606.webp

一共12个文件。

2、百度网盘下载链接方式：

https://pan.baidu.com/s/1P4fRgk9gaSutZnn8YW034Q?pwd=sadt

大家任选一种方式下载，完成后将下载的12个文件放到如下路径下：

\stable-diffusion-webui\extensions\SadTalker\checkpoints

如果没有checkpoints 文件夹可手动创建，注意的是别忘了解压hub.zip文件，如下我的目录可参考。

/uploads/2024/07/28/1722124885783016681.webp

GFPGAN模型下载-人脸增强模型

GFPGAN是一种人脸增强模型，而sadTalker插件也训练了自己的人脸增强模型，下载地址如下：

1、网页下载方式

https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi?usp=sharing

2、百度网盘下载地址

https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt

下载并解压，一共4个模型文件放到如下目录中：

\stable-diffusion-webui\extensions\SadTalker\gfpgan\weights

如果上述目录没有，请在SadTalker目录中自行创建

/uploads/2024/07/28/1722124881824012186.webp

下载并安装ffmpeg-虚拟数字人能开口说话

这一步的作用是语音格式的各种转换，虚拟数字人能开口说话，需要我们上传自己的语音，如果格式不符合会自动转换。

Windows下安装使用ffmpeg

官网下载并安装： Download FFmpeg

/uploads/2024/07/28/1722124868774023379.webp

/uploads/2024/07/28/1722124865668045312.webp

点击后下载，将下载的文件拷贝到C盘根路径下，解压后并重新命名为 ffmpeg

/uploads/2024/07/28/1722124880267088924.webp

配置环境变量

快捷键 win + R ，输入：SYSTEMPROPERTIESADVANCED ，回车。

/uploads/2024/07/28/1722124876542048000.webp

点击环境变量-》选择path-》编辑-》新建-》填入：C:\ffmpeg\bin

检查ffmpeg是否安装成功，如下则成功

/uploads/2024/07/28/1722124883380055307.webp

第四步：生成虚拟数字人视频

如此这般，就把sadtalker插件，配置到stable diffusion了，接下来的操作就很简单了，如下图所示，分别把你要上传的模特和语音上传至对应的栏目里，点击生成即可,建议使用面部修复，点击生成就可以了，生成结果在\sd-webui-aki-v4\outputs在这个文件夹里查看。在这里我就不做效果展示了大家可以私信我

/uploads/2024/07/28/1722124870348006167.webp

数字人效果请访问下面链接

上一篇： Ubuntu22.04安装ns3全教程并整合ns3-ai

下一篇：【CV大模型SAM（Segment-Anything）】真是太强大了，分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标

本文标签

使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。