数字人永生，一篇教会你，用AI让老照片开口说话

全栈海哥 2024-10-06 17:01:02 阅读 96

不仅能动，还能说话

前文介绍了如何让老照片动起来，很多动手能力强的小伙伴已经反馈结果了，但依旧有些遗憾，老照片虽然动起来了，但是无法开口说话。

俗话说：事事有回应，件件有着落，凡事有交代。今天让我们把这份遗憾补全，不仅照片动起来，还能开口说话，实现真正意义上的数字人永生。

选照片

老规矩，先选一张老照片，如果手里没有合适的，可以从这两个网站找素材

首推小红书，最好找，直接搜索：老照片。

官网地址：https://www.xiaohongshu.com/explore

也可以通过趣历史网站搜集素材，这里的素材具备一定的年代感，大部分都是合集，也很方便。

官网地址：https://www.qulishi.com/pic/

为了大家方便，这里也给大家准备了一些素材库，可以直接下载。

https://pan.baidu.com/share/init?surl=QsxgcMFNCx3DL2XYvcfHvA

提取密码：b2zf

照片的选择不是随意的，为了确保后续的制作质量，需要遵循以下要求：

不要使用有多人的照片。

确保人脸不要太小，建议人脸宽度占整体画面宽度的1/4以上。

人脸不要太大，确保整张人脸都在屏幕区域内，人脸不要出屏幕。

确保面部特征没有被遮挡，并努力让面部清晰可见。

当然，如果仅仅是筛选素材，我们可以按照要求来选择。但已有的老照片是独一无二的，无法满足要求。

这里教大家三步，可以解决90%的问题。

第一步：通过美图秀秀APP，对图片进行画质修复。去掉多余的毛边，模糊感。

第二步：对照片进行上色，从黑白照转换成彩色照。

第三步：对照片进行二次画质修复，确保上色后的不影响画质。

第四步：对照片进行裁剪，裁剪要求可以参考上面的1-3点。

制作视频

到这一步，我们的照片已经准备好了，开始让它动起来。

打开快影APP，我们选择AI创作，进入文生图功能，上传图片，输入提示词，让照片动起来。

这里需要注意，为不影响后续环节制作，视频我们也需要按照以下要求：

视频方向：横向或纵向

文件格式：mp4、mov

视频时长：5秒~30分钟

分辨率：360p~4K

文件大小：小于500MB

通过快影生成的视频，默认就符合，大家如果有自己调节参数，那么需要注意下。

定制数字人

视频素材有了，我们开始准备数字人制作。国内的数字人有许多，例如：腾讯的智影、蝉镜、小冰，飞影。

为了方便，这里推荐大家使用飞影：https://hifly.cc/home

飞影默认内置了很多公用的数字人分身，可以用于数字人视频制作，但不是我们今天的主题。

直接点击红框中的数字分身，开始制作我们的专属数字人。

直接点提交，你还没反应过来，就已经制作好了。

声音克隆

在左边菜单栏选择声音克隆，然后选择快速克隆。

模式选择：

基础版本，目前在内测中，对于部分音频可能存在诸如发音错误、停顿错误的问题。

高保真版本，高度还原真人音色特点、说话风格、口音和声学环境。

简单点，就是免费不保证质量，会员保证效果。

这里支持我们自己上传音频作为克隆的素材，音频要求：

文件格式：mp3、m4a、wav

音频时长：5秒～3分钟

如果我们有照片本人的一些原声素材，直接剪辑好上传就行。

口播说话

点击去创作，进入创作操作页面。

一）数字分身

这里我们不用调整，默认就是刚才我们选择的专属数字人。

二）文本驱动

就是通过我们准备好的文案来驱动人物开口说话，文案是什么，数字人就说什么，最大支持1w个字符。

数字人的声音，可以选择公用和之前我们克隆的声音。官网内置了几十种公用声音素材，这里我没有克隆声音，就随便选用了一个官方的公用声音。

当我们输入文案后，可以通过试听，和插入停顿来感受声音效果。

三）音频驱动

音频驱动指的是数字采用上传的录音文件进行匹配说话。

这里音频的要求是：

文件格式：mp3、m4a、wav。

音频时长：5秒～30分钟。

如果没有合适的音频，官方还贴心的准备了三个示列素材。

四）高级选项

细心的小伙伴发现了，不管是文字驱动，还是音频驱动，底部都有一个高级选项，驱动模式：

顺序驱动：使用数字人生成作品时会从你上传的原始视频第一帧开始顺序驱动。

随机模式：随机挑选片段来进行驱动（生成的音频时长超过原视频长度时，按照顺序驱动，不会走随机模式）。

非氪金大佬，没得选，只有随机模式。

选择好参数后，我们可以选择试听，或者插入停顿。最终确认效果后，选择提交。

结语

大卫·伊格曼在《生命的清单》一书中讲到：人会死三次，第一次是断气的时候，从生物学意义上死去了；第二次是下葬的时候，人们来参加葬礼，怀念其一生，然后在社会死去了；第三次是被最后一个人忘记的时候，那时候才真正的死了。

然而无论是1飞秒还是1亿年对于死后的人来说都是相等的，所以，与其说人有三次死亡，不如说这是生者面临逝者的自我告慰。

数字人永生，作为数字疗愈场景中最重要，也是最严肃的一环，其目的是指通过应用人工智能等技术，将人的形象、声音、思想等数字化，使其以虚拟形式存在，从而实现生命的延续。

上一篇：【人脸识别】数据集宝藏合集，速看！

下一篇：人工智能 | 基于ChatGPT开发人工智能服务平台

本文标签

数字人永生用AI让老照片开口说话一篇教会你

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。