使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】
红鼠爱学习 2024-07-28 08:01:04 阅读 65
使用sad talker制作AI数字人视频-【Stable Diffusion 实战教程】
目录
StableDiffusion安装-请访问下面文章
TTS 也就是 Text-to-speech 文字转语音
有问题可以私信
sad talker安装流程.
下载sadTalker插件所需要的模型与离线包文件
checkpoint文件下载和配置
GFPGAN模型下载-人脸增强模型
数字人效果请访问下面链接
StableDiffusion安装-请访问下面文章
5分钟 Stable Diffusion 本地安装-本地部署(秋叶整合包)【Stable Diffusion 实战教程】_stable diffusion 秋叶整合包-CSDN博客
5分钟安装包,Stable Diffusion-安装(整合版),点击链接即可保存。
链接:夸克网盘分享
提取码:vSjh
TTS 也就是 Text-to-speech 文字转语音
TTS 也就是 Text-to-speech,文字转语音可以说是视频创作者的福音了,前有剪映的小帅小美,后有 AI 音频爆发后的各种声音,通过消除对配音演员和录制会话的需求,大大减少了制作时间和成本。现在可以凭借 AI 音频多样化的可自定义语音和口音,使得创作者能够提高视频和语音内容的质量、创作更多引人入胜的内容,更好的吸引观众并将他们的视频提升到一个新的水平。 下面将给给大家介绍几款主流好用的 TTS 类音频软件:
一款免费的语音转文字的线上应用,短小精悍,页面十分简洁,基本上属于上手就能用的软件,不需要配置各种代码,内置了已经训练好的几十种声音可供选择,包括不但不限于:中文及各国语言,甚至还有粤语等方言,甚至还有经典的渣渣辉的声音。用来直接做短视频的配音还是很有特色的。一大亮点在于内置了训练好的各种游戏或动画中二次元角色的声音,可以直接使用,做短视频或者有兴趣的同学可以打开思路进行创作。
有问题可以私信
sad talker安装流程.
打开stable diffusion 中扩展栏目,从网页下载sad talker插件,下载完之后可以在installed处检查会出现sadtalker的标志,如果有就下载成功了,如果没有可能是因为网络原因,多试几次,如果不行那就上gitup下载,并把下载后的插件放到sd栏目中的,E:\stable-diffusion-webui\extensions文件中。
打开 Stable Diffusion WebUI 选择 Extensions -》从 URL 安装,安装地址填写:https://github.com/OpenTalker/SadTalker
下载sadTalker插件所需要的模型与离线包文件
在我们第一步安装插件后,大家重启webui便能看到SadTalker的tab选项,如下所示:
但是 sadtalker 的插件的运行需要我们下载两部分内容,一部分是checkpoint,一部分是GFPGAN模型.
checkpoint文件下载和配置
checkpoint : 指的是运行sadtalker插件需要的基础模型,如:预训练模型、构造脸部说话姿势等工具模型。下面提供两种下载地址:
1、网页端下载,请按下图红框框出来的模型下载
首先打开网址:Releases · OpenTalker/SadTalker · GitHub。
先下载这4个文件
当前界面一直往下滑,再下载8个文件:
一共12个文件。
2、百度网盘下载链接方式:
https://pan.baidu.com/s/1P4fRgk9gaSutZnn8YW034Q?pwd=sadt
大家任选一种方式下载,完成后将下载的12个文件放到如下路径下:
\stable-diffusion-webui\extensions\SadTalker\checkpoints
如果没有checkpoints 文件夹可手动创建,注意的是别忘了解压hub.zip文件,如下我的目录可参考。
GFPGAN模型下载-人脸增强模型
GFPGAN是一种人脸增强模型,而sadTalker插件也训练了自己的人脸增强模型,下载地址如下:
1、网页下载方式
https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi?usp=sharing
2、百度网盘下载地址
https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt
下载并解压,一共4个模型文件放到如下目录中:
\stable-diffusion-webui\extensions\SadTalker\gfpgan\weights
如果上述目录没有,请在SadTalker目录中自行创建
下载并安装ffmpeg-虚拟数字人能开口说话
这一步的作用是语音格式的各种转换,虚拟数字人能开口说话,需要我们上传自己的语音,如果格式不符合会自动转换。
Windows下安装使用ffmpeg
官网下载并安装: Download FFmpeg
点击后下载,将下载的文件拷贝到C盘根路径下,解压后并重新命名为 ffmpeg
配置环境变量
快捷键 win + R ,输入:SYSTEMPROPERTIESADVANCED ,回车。
点击环境变量-》选择path-》编辑-》新建-》填入:C:\ffmpeg\bin
检查ffmpeg是否安装成功,如下则成功
第四步:生成虚拟数字人视频
如此这般,就把sadtalker插件,配置到stable diffusion了,接下来的操作就很简单了,如下图所示,分别把你要上传的模特和语音上传至对应的栏目里,点击生成即可,建议使用面部修复,点击生成就可以了,生成结果在\sd-webui-aki-v4\outputs在这个文件夹里查看。在这里我就不做效果展示了大家可以私信我
数字人效果请访问下面链接
上一篇: Ubuntu22.04安装ns3全教程并整合ns3-ai
下一篇: 【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
本文标签
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。