国产AI新突破！通义万相视频生成模型来了

Amusi（CVer） 2024-10-26 11:01:01 阅读 56

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

2024年是AIGC大爆发的一年！尤其是视频生成（Video Generation）领域已经成为当前各大公司、高校发力的重点目标。

视频生成之所以如此重要，是因为它能够帮助人们快速创建各种类型的视频内容，在教育、娱乐、自动驾驶、医疗等行业都能发挥出强大作用。

2024年国外的视频生成商用级代表性产品有：Runway公司的Gen-3 Alpha、Luma的Dream Machine，还有OpenAI一直“跳票”的Sora等。

国内的视频生成技术发展也相当快速，除了快手发布的可灵、清华系初创生数科技发布的Vidu，还有之前阿里推出全网爆火的Animate Anyone。

其中阿里自研的视频生成爆款出圈之作Animate Anyone，在2023年11月底发布。这项工作的论文和项目主页一经发布，便在X、YouTube等社交媒体平台上爆火。相关视频播放量累计超1亿，该项目GitHub的Star数量也已经超1.4万！而且通义（原通义千问）APP已经上线了基于Animate Anyone打造的“全民舞王”！

阿里发布视频生成大模型——通义万相

又是阿里！杀疯了！9月19日，2024云栖大会期间，阿里巴巴重磅发布——通义万相视频生成大模型，可以生成影视级高清视频，而且更能听懂中国话，最懂中国风。

云栖大会飞天音乐节上的视频「江雪」，就是由通义万相生成的，如下所示：

通义万相目前支持文生视频和图生视频两大功能，能够支持最长5秒视频生成，每秒30帧，分辨率为720P。

【文生视频】输入一段提示词（支持中英文多语言输入），根据该提示词生成相应的视频内容。Amusi 强烈推荐大家使用通义万相针对提示词优化的“灵感扩写”功能，可以更好的生成视频。文生视频支持的输出比例选项丰富，有电影级的16:9，手机短视频的9:16，还有常用的1:1，4:3和3:4。

【图生视频】输入一张图片，即可生成一段动态视频。按照上传的图像比例或预设比例，将输入图片作为视频首帧延续生成短视频。同时还可以通过“创意描述”功能来精确控制视频画面、运动等，使得视频内容更加生动、可控。

大家现在就可以登录通义万相官网或者下载通义APP免费体验！

温馨提示：通义APP端不限次数使用！这个“大羊毛”，大家抓紧薅～

通义万相官网：

https://tongyi.aliyun.com/wanxiang/videoCreation

通义APP端入口：

通义万相AI视频生成实测对比

上面简单介绍了通义万相的部分功能，下面从我们用户的角度，实测一下通义万相的AI视频生成功能究竟有多强，来看看实际使用体验如何。

Amusi 这里将通义万相与可灵、Vidu两大国产视频生成工具进行对比。

要先说明一下，通义万相有两个“特色”功能：灵感扩写和自带BGM。

1. 强烈推荐灵感扩写。因为当你用了这个灵感扩写功能，那就回不去了！它可以显著提高视频生成的画面丰富度！适合于所有人，哪怕你是个prompt大神！

PS：当你想象不出来一些提示词的时候，也可以用这个功能，因为它会极大丰富你的视频提示词；哪怕你觉得仍然不够好，你也可以将其作为参考，然后选择性修改文本。

2. 生成的视频会自带BGM，视频观看起来沉浸感拉满！

一、文生视频测试

文生视频示例1

提示词：迪士尼画风，一只兔子背着滑翔伞在空中上滑行

灵感扩写：视频展示了迪士尼风格的一只可爱兔子，它背着色彩斑斓的滑翔伞，在蔚蓝的天空中自由滑行。兔子的耳朵随风飘扬，脸上洋溢着兴奋和快乐的表情。背景是绵延的山脉和翠绿的森林，太阳洒下的光芒照亮了整个场景，营造出一种梦幻般的氛围。视频通过跟踪拍摄，展示了兔子在空中翱翔的全过程，强调了滑翔运动的刺激和乐趣。

由上可知，这个灵感扩写太强大了！极大丰富了提示词，那究竟对视频生成有多大帮助？咱们往下看。

通义万相使用原提示词的的视频生成结果如下所示：

通义万相使用灵感扩写的视频生成结果如下所示：

对比之下，明显可以看出使用灵感扩写的视频画面更加精美，比如兔子背着的滑翔伞、兔子背后的场景，就连兔子都更加迪士尼风格，而且它的表情和动作相当生动，甚至连视频BGM都更加契合。

再看看可灵的视频生成结果。由于可灵没有“灵感扩写”功能，但是Amusi也测试了双版本，也就是把通义万相灵感扩写后的提示词输入到可灵中。

可灵使用原提示词的的视频生成结果如下所示：

可灵使用通义万相灵感扩写的视频生成结果如下所示：

由上可知，可灵使用通义万相灵感扩写生成的视频画面确实会更加精美一些，但万万没想到兔子和滑翔伞融为一体，直接变成了“兔子滑翔伞”。

这里通义万相和可灵作为对比，可以明显看出通义万相生成的兔子、滑翔伞和背景都更加逼真，而且通义万相中兔子滑翔的动作更加丝滑和自然。

文生视频示例2

提示词：古风女孩，穿着古代服饰，在庭院里，迎面走来

灵感扩写：视频展示了古风女孩穿着精致的古代服饰，在典雅的庭院中缓缓前行。她的步伐轻盈，仿佛每一步都在诉说着古老的故事。周围是青砖灰瓦、绿植环绕的古典景致，阳光透过树叶的缝隙洒落，为她披上了一层金色的光晕。女孩的面容清秀，长发束起，头饰点缀着珠翠，更添几分古典韵味。她的出现，如同穿越时空的精灵，令人眼前一亮。