国产AI新突破!通义万相视频生成模型来了
Amusi(CVer) 2024-10-26 11:01:01 阅读 56
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
2024年是AIGC大爆发的一年!尤其是视频生成(Video Generation)领域已经成为当前各大公司、高校发力的重点目标。
视频生成之所以如此重要,是因为它能够帮助人们快速创建各种类型的视频内容,在教育、娱乐、自动驾驶、医疗等行业都能发挥出强大作用。
2024年国外的视频生成商用级代表性产品有:Runway公司的Gen-3 Alpha、Luma的Dream Machine,还有OpenAI一直“跳票”的Sora等。
国内的视频生成技术发展也相当快速,除了快手发布的可灵、清华系初创生数科技发布的Vidu,还有之前阿里推出全网爆火的Animate Anyone。
其中阿里自研的视频生成爆款出圈之作Animate Anyone,在2023年11月底发布。这项工作的论文和项目主页一经发布,便在X、YouTube等社交媒体平台上爆火。相关视频播放量累计超1亿,该项目GitHub的Star数量也已经超1.4万!而且通义(原通义千问)APP已经上线了基于Animate Anyone打造的“全民舞王”!
阿里发布视频生成大模型——通义万相
又是阿里!杀疯了!9月19日,2024云栖大会期间,阿里巴巴重磅发布——通义万相视频生成大模型,可以生成影视级高清视频,而且更能听懂中国话,最懂中国风。
云栖大会飞天音乐节上的视频「江雪」,就是由通义万相生成的,如下所示:
通义万相目前支持文生视频和图生视频两大功能,能够支持最长5秒视频生成,每秒30帧,分辨率为720P。
【文生视频】输入一段提示词(支持中英文多语言输入),根据该提示词生成相应的视频内容。Amusi 强烈推荐大家使用通义万相针对提示词优化的“灵感扩写”功能,可以更好的生成视频。文生视频支持的输出比例选项丰富,有电影级的16:9,手机短视频的9:16,还有常用的1:1,4:3和3:4。
【图生视频】输入一张图片,即可生成一段动态视频。按照上传的图像比例或预设比例,将输入图片作为视频首帧延续生成短视频。同时还可以通过“创意描述”功能来精确控制视频画面、运动等,使得视频内容更加生动、可控。
大家现在就可以登录通义万相官网或者下载通义APP免费体验!
温馨提示:通义APP端不限次数使用!这个“大羊毛”,大家抓紧薅~
通义万相官网:
https://tongyi.aliyun.com/wanxiang/videoCreation
通义APP端入口:
上面简单介绍了通义万相的部分功能,下面从我们用户的角度,实测一下通义万相的AI视频生成功能究竟有多强,来看看实际使用体验如何。
Amusi 这里将通义万相与可灵、Vidu两大国产视频生成工具进行对比。
要先说明一下,通义万相有两个“特色”功能:灵感扩写和自带BGM。
1. 强烈推荐灵感扩写。因为当你用了这个灵感扩写功能,那就回不去了!它可以显著提高视频生成的画面丰富度!适合于所有人,哪怕你是个prompt大神!
PS:当你想象不出来一些提示词的时候,也可以用这个功能,因为它会极大丰富你的视频提示词;哪怕你觉得仍然不够好,你也可以将其作为参考,然后选择性修改文本。
2. 生成的视频会自带BGM,视频观看起来沉浸感拉满!
一、文生视频测试
文生视频示例1
提示词:迪士尼画风,一只兔子背着滑翔伞在空中上滑行
灵感扩写:视频展示了迪士尼风格的一只可爱兔子,它背着色彩斑斓的滑翔伞,在蔚蓝的天空中自由滑行。兔子的耳朵随风飘扬,脸上洋溢着兴奋和快乐的表情。背景是绵延的山脉和翠绿的森林,太阳洒下的光芒照亮了整个场景,营造出一种梦幻般的氛围。视频通过跟踪拍摄,展示了兔子在空中翱翔的全过程,强调了滑翔运动的刺激和乐趣。
由上可知,这个灵感扩写太强大了!极大丰富了提示词,那究竟对视频生成有多大帮助?咱们往下看。
通义万相使用原提示词的的视频生成结果如下所示:
通义万相使用灵感扩写的视频生成结果如下所示:
对比之下,明显可以看出使用灵感扩写的视频画面更加精美,比如兔子背着的滑翔伞、兔子背后的场景,就连兔子都更加迪士尼风格,而且它的表情和动作相当生动,甚至连视频BGM都更加契合。
再看看可灵的视频生成结果。由于可灵没有“灵感扩写”功能,但是Amusi也测试了双版本,也就是把通义万相灵感扩写后的提示词输入到可灵中。
可灵使用原提示词的的视频生成结果如下所示:
可灵使用通义万相灵感扩写的视频生成结果如下所示:
由上可知,可灵使用通义万相灵感扩写生成的视频画面确实会更加精美一些,但万万没想到兔子和滑翔伞融为一体,直接变成了“兔子滑翔伞”。
这里通义万相和可灵作为对比,可以明显看出通义万相生成的兔子、滑翔伞和背景都更加逼真,而且通义万相中兔子滑翔的动作更加丝滑和自然。
文生视频示例2
提示词:古风女孩,穿着古代服饰,在庭院里,迎面走来
灵感扩写:视频展示了古风女孩穿着精致的古代服饰,在典雅的庭院中缓缓前行。她的步伐轻盈,仿佛每一步都在诉说着古老的故事。周围是青砖灰瓦、绿植环绕的古典景致,阳光透过树叶的缝隙洒落,为她披上了一层金色的光晕。女孩的面容清秀,长发束起,头饰点缀着珠翠,更添几分古典韵味。她的出现,如同穿越时空的精灵,令人眼前一亮。
可灵使用通义万相灵感扩写的视频生成结果如下所示:
这里通义万相和可灵都使用通义万相的灵感扩写作为输入提示词,两个背景画面各有特色,但在人物细节上,通义万相更胜一筹,其生成的人物服饰更精致,人脸属实是国风古韵,不愧是最懂中国风的通义万相(灵感扩写后的提示词实在是太中国风了),而可灵生成的人物面部存在严重畸变。
文生视频示例3
提示词:一只熊猫穿着绿色滑雪服,踩着雪橇板,在雪山上快速滑行,镜头跟随拍摄
灵感扩写:视频展示了穿着绿色滑雪服的一只熊猫,在雪山上进行高速滑行的惊险场景。熊猫踩着雪橇板,展现出专业的滑雪姿态。镜头捕捉到熊猫周围飞溅起的雪花。背景是白雪皑皑的山峰和蓝天,营造出一种清新而又刺激的氛围。整个视频充满了运动感和乐趣,让人感受到滑雪运动的魅力。
通义万相使用灵感扩写的视频生成结果如下所示:
可灵使用通义万相灵感扩写的视频生成结果如下所示:
这里通义万相和可灵都使用通义万相的灵感扩写作为输入提示词。通义万相可以说是完美契合提示词,熊猫穿的这件绿色滑雪服也太贴身了,相当可爱帅气,滑雪姿势的动态也很优雅,雪山背景也很逼真且具有高度一致性。但可灵这里就很拉垮了,绿色滑雪服基本消失了,或者说是变成了给熊猫“护胸”的绿色小装备。
二、图生视频测试
注:通义万相、可灵和Vidu的图生视频功能都支持提示词(可选项)。
图生视频示例1
输入一张图片(该图片是由AI制作成的),如下所示(中秋佳节,是不是很应景):
图生视频的提示词:兔子变身为一个穿着白色T恤的人
上面三个视频对比结果很明显,通义万相的效果最佳,兔子变身过程相当丝滑自然;而Vidu那都不叫变身了,属于是镜头切换;至于可灵,那干脆镜头切换都没有,像是提示词效果失灵了,因为变身和穿着白色T恤的人这两个关键因素在视频中是一点儿都没看到。
图生视频示例2
输入图片如下所示:
图生视频的提示词:视频展示了一只水母,缓缓地游泳
通义万相的视频生成结果如下所示:
上面三个视频各有特色,通义万相中的水母游泳姿态很自然;可灵中的水母一致性更好,但游泳姿态过于“缓慢”了;Vidu中的镜头视角,嗯。。。可以说是很有个性。
限于篇幅有限,本文只介绍了通义万相极小部分的的视频生成功能和案例,而更多炫酷功能和精彩演示,推荐大家去通义万相官网查看和使用。
薅羊毛!大家赶紧下载使用!
通义万相这么强大的视频生成能力,离不开阿里巴巴领先的技术优势。
阿里巴巴提出全自研视觉生成大模型,采用全新的Diffusion + Transformer架构,一套架构同时支持图像与视频生成类任务,在模型框架、训练数据、标注方式和产品设计等方面进行精心设计,从而提供业界领先的视觉生成能力。
现在通义万相完全免费,通义APP端更是每日不限次使用,大家赶紧下载使用吧!羊毛薅起来!
通义万相官网:
https://tongyi.aliyun.com/wanxiang/videoCreation
点击阅读原文,即可免费体验!
上一篇: Gemini Pro 加持,谷歌 AI 笔记 Notebook LM 重磅升级!
本文标签
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。