一键音频驱动图片数字人项目——EchoMimic(附整合包)
CSDN 2024-08-30 12:31:18 阅读 88
大家好,今天要给大家带来一个数字人相关项目——EchoMimic。该项目是由蚂蚁集团支付宝终端技术部出品,只需要一段音频和一个参考图片,EchoMimic就能让图片中的人物“活”起来。
我已制作好一键启动整合包和云端一键部署镜像方便大家快速上手体验!
效果展示
EchoMimic支持中文、英文音频驱动。
中文测试的效果
英文测试的效果
使用方法
1. 解压压缩包:注意路径避免使用中文等特殊符号。推荐使用第三方解压软件如Bandizip,以确保正确解压。
2.打开启动器:耐心等待片刻,系统将自动跳转到网页界面。
上传一张参考图像,注意人物面部清晰,尽量不要有遮挡。
输入参考音频。
一般到这里就可以直接点击生成啦。
追求细节和完美可以继续调整更多参数。
调整配置参数:如宽度、高度、长度、种子参数等。
如果你发现生成的面部有些偏移,可以调节“⾯部掩膜膨胀⽐例”、“⾯部裁剪膨胀⽐例”这两个参数使之更自然流畅:
帧率选择:默认为24帧视频,可以根据自己电脑配置选择更高帧率
设备默认使用的是cuda(显卡)。可以尝试cpu(会非常慢.....)
配置要求
WIN
Windwos10/11操作系统8G显存以上的英伟达显卡如果出现cuda错误,建议安装cuda11.8或以上版本
MAC
该项目非常依赖GPU的算力,暂不支持本地离线版本。
可访问云端镜像
https://www.xiangongyun.com/image/detail/0597d2b7-4f15-47f3-b49e-1f5f7260f14c?r=2UKFZQ
整合包获取
👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻
关注文章下方我们的公众号,发送【EchoMimic】关键字获取整合包。
如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!
注意关键字大小写
制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!
上一篇: 大模型从入门到精通——基于智谱AI和LangChain实现RAG应用(一)
本文标签
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。