AI复活,让老照片动起来【数字永生】

领航猿1号 2024-09-13 16:01:02 阅读 94

✅  适宜人群:关注 AI 复活缅怀逝者或以此变现的人群

     内容出品人:@领航猿1号

     更多AI知识分享:https://www.yuque.com/lhyyh/ai/readme?singleDoc

1、前言

        AI“复活”实质上是利用人工智能技术,通过对人物已有“形象、声音、语言、思想”等内容的学习,克隆数字化的虚拟人物形象,让人类生命以数字化形式存在。这项技术旨在帮助人们在失去亲人后,通过与逝者的数字化身进行互动,来缓解思念之情和悲痛感。

网上示例

让老照片动起来

        

        但数字永生面临技术、伦理和道德的双瓶颈,目前,AI克隆数字人领域的行业标准尚未明晰,企业行为大多依靠自律。因为它可能会引发关于死亡尊严、人类情感真实性、隐私权保护等问题的讨论。因此,技术的开发者和使用者需要在创新的同时,考虑到这些潜在的风险,并确保技术的合理和道德使用。只有构建符合伦理、法律的数字永生技术生态,才能让人类更安全、更幸福地享受‘云上栖居’的生存方式。

2、商业模式

2.1 商业模式介绍

        做过自媒体(抖音、小红书、公众号、私域...)的人应该都知道,信息差很重要,目前 AI 有很多场景可以副业变现,这个 AI 复活亲人更不用说,相信或多或者大家都在抖音等平台上刷到过这种让老照片动起来的视频,对于怀旧场景来说,变现真的太容易了。据调查发现,目前市面上,有关AI克隆数字人的服务售价可谓是千差万别。少则几十元,多则几万元。

2.2 项目愿景与技术实现

2.2.1 项目背景

        在现代社会中,失去亲人带来的痛苦和思念是难以言喻的。我们的项目旨在通过先进的人工智能技术,为人们提供一种新的方式来与已故亲人的“数字化身”进行互动。这不仅能帮助他们缓解内心的悲伤与思念,还能在情感上提供一定的慰藉,让亲情在数字世界中得以延续。

2.2.2 项目目标

        我们的项目目标是利用AI技术,将已故亲人的照片和声音合成一个具有真实感的有声视频。通过精准模拟逝者的外貌和声音特征,我们希望为用户创造出一个高度逼真的数字人物,以达到“复活”的效果。

2.2.3 核心技术

        数字永生技术的核心在于生成式人工智能(AIGC),这是一种结合了图像处理、语音合成以及自然语言处理等多种先进技术的综合系统。通过高质量的数据输入,AIGC能够学习和模拟逝者的特征,生成一个外观和行为都高度相似的数字化人像。

以下是一些技术细节:

图像处理:高分辨率的图像输入能显著提升数字人物的外观相似度。语音合成:利用录音样本,生成与逝者声音高度相似的语音。自然语言处理:通过分析逝者生前的语言习惯和表达方式,使数字人物能够进行自然流畅的对话。个性化数据输入:输入兴趣爱好等个人特征数据,以模拟逝者的性格和行为模式。

精度越高、数据越定制化,生成的数字人物效果就越接近真人,成本也相应提高。这些精度体现在以下几个方面:口型准确度、图像分辨率、动作复杂性、服饰与发型的丰富度、语音相似度、多情感语调、互动性以及交互的真实性。

2.2.4 技术应用

AI数字永生技术的应用形式多样,以满足不同用户的需求。其主要应用场景包括:

数字遗照:高分辨率的静态数字照片,真实再现逝者的形象。AI疗愈:通过生成的数字视频或互动内容,帮助用户缓解心理压力和情感痛苦。AI复活:提供实时视频互动服务,使用户能与数字化的亲人进行对话和互动。

每种应用形式都力求在不同程度上满足用户的情感需求,帮助他们在数字空间中重新构建与逝者的联系。

2.3 变现方式

        理解AI数字永生项目的变现方式,就是理解如何将这一技术转化为商业价值。以下是该项目主要的8种变现模式:

2.3.1 销售智能化应用程序

        开发简单易用的智能化应用程序,让用户可以自行操作。用户可以通过这些应用程序将静态照片“动起来”或者生成简单的AI语音。这类应用程序价格较低,通常在10元到几十元之间,非常适合普通用户购买和使用。

2.3.2 提供定制化服务

        为客户提供个性化的数字人复活服务。商家可以根据客户需求,利用AI技术“复活”逝者,并提供定制化的视频、音频或互动体验。根据服务复杂度和定制程度,收费从几百元到上万元不等。

2.3.3 个性化心理疗愈服务

        通过模拟逝者的形象和声音,提供心理疗愈服务,为用户在情感上提供慰藉和支持。此类服务可以采用按次、按小时或包月的收费模式。利用这种方式,不仅可以缓解用户的心理压力,还能产生稳定的收入。

2.3.4 开发面向C端的互动APP

        开发一款专门的互动APP,允许用户通过APP与“复活”的数字人进行互动交流。此类应用可以提供订阅服务或一次性购买服务,使用户能长期与数字化亲人保持联系。此模式适合有一定情感需求且愿意长期投入的用户。

2.3.5 数字人形象和声音的克隆服务

        提供高端的数字人形象和声音克隆服务,通过收集逝者生前的照片、视频和音频资料,利用AI技术创建一个高度逼真的数字人。用户可以与这个数字人进行实时文字或语音交流。由于技术复杂性和高精度要求,服务费用较高,一般从万元起步。

2.3.6 面向B端市场的服务

        将AI复活技术应用于企业级市场,例如医疗机构、教育机构、文化传承等领域。通过提供定制化解决方案来获取收益,例如复活历史人物用于文化教育或科研。此模式适合有一定技术储备和资源的创业者或公司。

2.3.7 授课和带教学徒

        掌握了AI数字永生技能后,开发相关课程和带教学徒也是一种变现方式。通过在线课程、线下培训等方式教授这项技能,课程费用可以从几百到几千元不等,而1对1的教学价格则可能从几千到几万元不等。此方式不仅能获得经济收益,还能扩大技术影响力。

2.3.8 内容创作和营销

        利用AI复活技术进行内容创作,例如在短视频平台上发布“复活”名人的视频来吸引流量,并通过广告或合作方式进行变现。这种方式适合有一定内容创作能力和平台运营经验的人,通过高点击率的视频内容来获得广告收入。

3、项目实操

        📌 声明:

        由于缺少行业标准,目前 AI 复活场景存在“伦理、道德、法律、诈骗” 等问题,请大家遵守法律法规,合理、合情、合法的进行应用。不要侵犯他人肖像权、隐私权等。如果出现任何法律问题,责任自负。

        根据我国《民法典》第 994 条规定,当死者的姓名、肖像、名誉、荣誉、隐私、遗体等人格利益受到侵犯时,其配偶、子女、父母有权依法请求行为人承担民事责任。在规范应用方面,我国出台了《生成式人工智能服务管理暂行办法》,自 2023 年 8 月 15 日起施行。

考虑到技术可能被违法滥用,一定要强调,只是为了缅怀,人脸识别绕道,眨眼、摇头、点头、张嘴等动作都拒绝制作,防止造成 AI 视频诈骗。

3.1 照片处理(四款工具)

        如果照片模糊不清晰,可以使用照片修复工具进行修复,这类工具大多数收费,你可以根据你跟客户的收费标准决定① 免费提供照片修复服务 | ② 额外照片修复收费服务,下面提供几款照片修复工具

产品        官网 特点
腾讯ARC ARC官网-腾讯 模糊图片修复
Apeaksoft 免费图像放大 - 由 AI 提供支持的即时照片增强器 增强照片分辨率,消除模糊和噪点
BigJPG Bigjpg - AI Super-Resolution lossless image enlarging / upscaling tool using Deep Convolutional Neural Networks 照片无损放大
Upscayl Upscayl - AI Image Upscaler 照片无损放大

3.2 音频合成(百度飞浆)

        至少需要提供一分钟的原声视频,越清晰越好,用于分析人物音色、声纹等特点。

🎯 这里我们使用,百度飞浆产品进行操作

预防针:这块稍微有点难度,涉及代码,不过不用担心,照着操作即可。官网链接:飞桨AI Studio星河社区-人工智能学习与实训社区

3.2.1 选择项目并运行 GPU 环境

1、进入项目大厅,进入【有手就行】项目

2、点击运行,大家也可以看看项目说明,里面教程也很详细

3、进入环境时,一定要选择 32G或以上的GPU环境运行,CPU环境无法运行

等待启动

点击进入

3.2.2 开始微调【慢慢来】

🎯 注意:

这是一个 python 文件,前面买的 CPU 就是作微调用的。大家需要挨个代码段点击▶️按钮运行程序,一定要按顺序运行,并且要保证前面的代码运行成功再运行后面的代码,运行前请看好如下说明。如果跳着运行,会出错。

点击红框处的 ▶️ 按钮运行

运行完,重启一下内核(同一个文件,往下滑就看到了)

然后开始挨个运行下面的代码段(不需要重启内核了)

下载依赖,这步骤时间较长,耐心等待

中间几个同样操作,挨个运行,省略...

当运行到下图位置时,修改文件路径上传音频文件后,再运行

修改文件路径(同一个文件,往下滑就看到了)

将准备好的音频上传到刚刚的文件夹(音频切割工具可以使用 slicer-gui)

🎯 上传的音频数据说明:

对于语音合成任务,对数据是有一定要求的,尽可能上传干净的人声数据,比如像示例中的人声数据,在安静环境下录制,录制设备无论是手机,电脑,还是别的设备都可以,注意一定要控制噪音,或者提前使用音频剪辑软件进行降噪。

音频不要太长,也不要太短,建议2s~10s之间音频尽量是干净人声,不要有BGM,不要有比较大的杂音,不要有一些奇奇怪怪的声效,比如回声等声音的情绪尽量稳定,以说话的语料为主,不要是『嗯』『啊』『哈』之类的语气词

关于录音工具

你可以使用一些在线运行的录音工具或者 【Adobe Audition】,【Cool Edit Pro】, 【Audacity】 等录音软件录制音频,保存为 24000采样率的 Wav 格式

这里方便大家联系,给大家提供一组音频如下👇📎SpkA.zip

记得点击▶️按钮运行哦

微调参数调整

修改文本

全部运行完成后

下载音频:上面代码块运行后,按下面的方式下载音频

3.3.3 微调模型下载与使用

模型下载

上面 微调训练 结束后,会在 【inference】目录下生成对应 【exp_name】的模型文件夹,使用下面的代码块生成对应压缩文件,右键点击下载即可

3.2.4 停止服务

一般人不会告诉你这一步,服务记得停掉,因为前面的 GPU 是按小时收费的。

不过刚刚用的这会,不用担心,新人有免费额度。

查看自己剩余算力卡

3.3 视频合成

前面的声音文件用于合成声音的,如果你的场景不需要声音,可以跳过 3.2 章节

接下来是用【图片+声音】通过诸如“D-ID、HeyGen、腾讯智影”等数字人工具进行最后的合成

🎯 三款最火的数字人合成工具

1、腾讯智影数字人

官网:腾讯智影-在线智能视频创作平台官方教程:腾讯智影帮助文档

2、D-ID 数字人

官网链接:D-ID | The #1 Choice for AI Generated Video Creation Platform

3、HeyGen 数字人

官网链接:https://app.heygen.com/

下面以 D-ID 为例

1、Create a video

2、 上传你准备好的照片

3、导入音频

4、生成视频

5、下载视频

4、产品定价参考


👇🏻学习、交流更多 AI 前沿知识👇🏻



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。