UltraEdit基于SD3下的图片局部编辑;AI帮助绘画学生回放绘画过程;由音频驱动的肖像动画生成系统

go2coding 2024-08-02 09:31:01 阅读 51

✨ 1: UltraEdit

UltraEdit是一个大规模自动生成的图像编辑指令数据集,支持区域编辑。

在这里插入图片描述

UltraEdit 是一个大规模的自动生成指令图像编辑数据集,包含约400万的编辑样本。其主要目的是解决现有图像编辑数据集(如InstructPix2Pix和MagicBrush)的缺陷,并提供一种系统的方法来生成大量高质量的图像编辑样本。

更广泛的编辑指令:通过大语言模型(LLMs)的创造力结合人类评估者的上下文编辑范例来实现。

基于真实图像的数据源:包括照片和艺术作品,提供了比纯文本生成的图像模型更多样且更少偏见的数据。

支持基于区域的编辑:通过高质量的自动生成区域注释来增强。

UltraEdit 在图像编辑领域具有广泛的应用前景,为开发更智能、更高效的图像编辑工具提供了坚实的数据基础。

地址:https://github.com/HaozheZhao/UltraEdit

✨ 2: Paints-Undo

Paints-Undo是一款模拟人类绘图行为的AI模型,展示人类绘画的步骤和过程。

在这里插入图片描述

Paints-Undo 是一个旨在提供人类绘画行为基础模型的项目,目的是希望未来的AI模型能更好地符合人类艺术家的实际需求。项目名称 “Paints-Undo” 是受数字绘画软件中按多次“撤销”(通常是 Ctrl+Z)按钮的效果启发,模型的输出看起来像是按了很多次“撤销”按钮。

Paints-Undo 提供一组模型,这些模型接受一幅图像作为输入,然后输出该图像的绘制序列。该模型表现出各种人类绘画行为,包括但不限于素描、描线、上色、阴影处理、变换、左右翻转、颜色曲线调整、更改图层可见性,甚至在绘画过程中更改整体构思。

艺术创作过程分析:Paints-Undo 能够模拟数字绘画过程中的每一步操作,从而帮助艺术家和研究人员分析绘画过程。

学习与教学:通过回放绘画过程,可以用作绘画教学的辅助工具,帮助学生了解和学习绘画技法。

艺术创意实验:艺术家可以使用此工具进行创意实验,观察不同的绘画步骤和方法对最终作品的影响。

地址:https://github.com/lllyasviel/Paints-UNDO

✨ 3: Tailor3D

Tailor3D是一种通过双面图像定制3D资产编辑和生成的新方法。

在这里插入图片描述

Tailor3D 是一个创新的系统,旨在通过双面图像和前馈重建方法,实现定制3D资产的编辑与生成。该系统模仿制衣师在本地对象变化和风格迁移上的操作,通过以下步骤生成定制的3D资产:

该过程每一步仅需几秒钟,使用户能够交互式地快速得到所需的3D对象。实验结果显示,Tailor3D在3D生成填充和风格迁移方面效果显著,为3D资产的编辑提供了高效解决方案。

游戏开发和动画制作:开发者可以使用Tailor3D快速生成和编辑游戏中的3D模型,提升开发效率和创意。

虚拟现实和增强现实:此工具可以用来创建高质量的3D对象,应用在虚拟现实(VR)或者增强现实(AR)项目中。

电子商务和产品展示:商家可以通过Tailor3D生成产品的3D模型,用于在线展示,提升用户体验。

教育和研究:教育机构和研究人员可以利用Tailor3D进行3D模型的创建和编辑,以便于教学和学术研究。

艺术创作:艺术家可以使用Tailor3D进行3D艺术作品的设计和创作,实现多样化的艺术风格和表现形式。

地址:https://github.com/Qi-Zhangyang/Tailor3D

✨ 4: EchoMimic

EchoMimic通过可编辑的标志点条件实现逼真的音频驱动的头像动画。

在这里插入图片描述

EchoMimic 是一个由音频驱动的逼真肖像动画生成系统,通过可编辑的标志点条件来实现。它由来自支付宝的终端科技部门开发,其构建原理是通过音频信号驱动,并结合对人脸关键点(landmarks)的编辑进行调整。这个系统利用了深度学习和生成对抗网络(GANs),可以生成高度逼真的肖像动画,广泛应用于虚拟主持人、虚拟助理、视频配音、社交媒体内容生成等领域。

虚拟主持人和虚拟助理:通过给定的音频输入,虚拟主持人可以实时生成同步的口型和面部表情。

视频配音与动画制作:可用于影视后期制作中,为角色配音提供自然的面部表情和口型动画。

社交媒体内容生成:用户可以用自己的照片生成同步的动画表情,用于短视频平台、动态表情等内容创作。

教育与宣传:在教育视频和宣传资料中,通过音频驱动生成生动的讲解员动画,提高观众的参与度。

远程会议与虚拟协作:为视频会议中的虚拟形象提供逼真的面部表情,使远程交流更为自然。

EchoMimic 通过音频驱动和关键点编辑的双重条件,实现了更高的动画逼真度和灵活性,适用于多种应用场景。

地址:https://github.com/BadToBest/EchoMimic

✨ 5: RodinHD

RodinHD是一种利用扩散模型生成高保真3D虚拟头像的方法。

在这里插入图片描述

RodinHD是一个利用扩散模型生成高保真3D虚拟头像的系统。该系统旨在解决现有方法在捕捉复杂细节如发型等方面的不足。研究团队首先指出了在连续拟合多个虚拟头像时出现的灾难性遗忘问题,这种问题是由MLP解码器共享机制引起的。为了解决这个问题,研究团队提出了一种新的数据调度策略和权重整合正则项,从而提高了解码器渲染细节的能力。

此外,RodinHD通过计算更细粒度的层次表示来优化肖像图像的指导效果,这些表示捕捉了丰富的二维纹理信息,并通过交叉注意力在多个层次上将其注入3D扩散模型中。该模型在经过优化噪声调度的46,000个虚拟头像上训练后,能够生成比以往方法细节更丰富的3D虚拟头像,并能够适应来自野外的肖像输入。

该框架包含两个阶段:拟合阶段和生成阶段。在拟合阶段,它为每个头像学习高分辨率的三平面和一个共享解码器以渲染图像。在生成阶段,它学习一个基础扩散模型和一个上采样扩散模型,以级联方式生成高分辨率的三平面。通过分层方式将条件肖像图像注入扩散模型中,以增强生成三平面中的复杂细节。

地址:https://rodinhd.github.io/

更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。