百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

OneFlow深度学习框架 2024-06-18 17:01:15 阅读 96

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容（AIGC）平台，专注于人工智能大模型在图像视频领域的生成创造，为用户提供先进且丰富的AIGC工具，满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来，无界AI平台已累计超过400多万C端、B端用户。

在无界AI的图片/视频生成、AI写真等项目场景中，他们已使用硅基流动研发的图片/视频生成推理引擎OneDiff来提升效率。其中，在AI定制视频彩铃项目中，他们在对比评测多个推理加速引擎后选择了OneDiff，取得了显著的加速效果和使用体验，最终顺利与浙江联通达成合作。

作者｜无界AI算法团队

1 团队背景

我们无界AI算法团队主要专注于三大方向：一是自研行业模型训练，包含文本、图片、视频和3D模型等内容的生成，其中还涉及对不同行业场景数据定制的图片/视频打标模型，不同类型image/video caption对训练和作画的影响，以及适配不同的训练技术；二是算法的预研、改进和落地，比如可控的图片/视频/3D生成和编辑，图片和视频的风格化，小样本对象或风格化身等；三是企业解决方案的定制，对于一些大B客户的需求，在以上模型和算法的基础上，我们会给出更完整的解决方案。

基于这些方向，我们做过不少行业Top企业合作的项目，比如与万事利合作的丝绸纹样大模型，与某快消品牌合作的“回到童年”儿童节营销活动和手绘新春红包的新活动，与vivo合作的用一张用户图片3分钟制作化身生成AI写真，与《神隐》发行方合作的用一张用户图片化身剧中角色，以及与浙江联通合作的AI定制视频彩铃等项目。

2 项目挑战与技术选型

无界AI产品的一项功能是图片生成视频，让用户能基于一张图片生成对应内容的一小段视频。基于这个功能，我们跟浙江联通碰撞出AI定制视频彩铃项目，用户上传一张自己的照片，AI生成用户在特定场景中的动态视频，这个项目在春节期间开放给用户使用，场景上是与春节相关的喜庆画面，也可用作拜年视频。

上线期间，浙江联通向用户推送了这个活动，因活动形式比较新颖，吸引了大量用户。大量的用户制作请求给我们的项目带来了巨大挑战：在有限的资源下，我们要尽量减少用户的等待时间，因此生成效率十分重要。此外，项目方对效果的要求也比较高，用户人脸出现在场景后的人脸相似性，场景图片合成后生成视频的动态合理性，人脸的高保真等都是不小的挑战。

推理加速是我们团队一直在关注的领域，比如之前的AITemplate、OneFlow等，我们是从社区知道的OneDiff，在它支持SVD后，就第一时间对OneDiff社区版进行了各种使用场景下的详细评测，包括效果的一致性和显存的变化。OneDiff相比TensorRT等其他开源或闭源框架优势明显，简单来说：

一是加速比上更稳定。在普通的作画场景，不同尺寸下并叠加一些控制，使用OneDiff平均有40%以上的性能提升。在特定场景，比如图生视频，生成4s的1024x576和1024x1024画幅视频时，带来了约100%的推理加速和10%的显存节约。

二是适配性比较好。比如支持多尺寸和LoRA热插拔，以及兼容SVD等最新的算法。

三是方便上手。支持Diffusers/ComfyUI/WebUI应用框架。

在AI定制视频彩铃项目中，优化之前，单次图片生成视频需要90s，使用OneDiff优化后可以用50s生成，效率提升非常显著，用户上传照片即可自动生成精美视频彩铃。

龙年伊始，我们顺利同浙江联通达成合作。截止目前， AI定制视频彩铃活动已经触达上百万联通用户，日均视频创作量上千，该活动也促成无界AI成为浙江广电浙江联通战略合作伙伴，其中OneDiff功不可没。

3 结语

在图生视频、单张图片生成、AI写真等一些单点项目或功能上已经使用了OneDiff，我们也在测试OneDiff企业版，非常期待在性能方面能有更大的提升。

未来，我们非常期待OneDiff能够提供更多强大的功能，例如ControlNet（WebUI）等，也期待OneDiff能对训练阶段有所加速，比如LoRA的训练。此外，我们在LLM、图片生成、视频生成、3D模型生成方面都有应用，如果OneDiff在这些场景都有对应的模型或算法支持是最好的。

我们相信，OneDiff将会成为更加优秀的AIGC算法加速工具，为广大开发者带来更大的便利。感谢OneDiff团队的辛勤付出！

【OneDiff v0.12.1正式发布（生产环境稳定加速SD&SVD）】本次更新包含以下亮点，欢迎体验新版本：github.com/siliconflow/onediff

* 更新SDXL和SVD的SOTA性能

* 全面支持SD和SVD动态分辨率运行

* 编译/保存/加载HF Diffusers的pipeline

* HF Diffusers的快速LoRA加载和切换

* 加速了InstantID（加速1.8倍）

* 加速了SDXL Lightning

（SDXL E2E Time）

（SVD E2E Time）

更多详情：https://medium.com/@SiliconFlowAI/

其他人都在看

800+页免费“大模型”电子书

揭示语言大模型的采样过程

混合输入矩阵乘法的性能优化

强化学习之父：通往AGI的另一种可能

好久不见！OneFlow 1.0全新版本上线

LLM推理入门指南②：深入解析KV缓存

OneDiff加速“图生生”，电商AI图像处理新范式

上一篇：随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少?

下一篇： AI大模型在运动项目的深度融合和在穿戴设备的实践及未来运动健康技术发展

本文标签

百万用户通话新风潮：仅需50秒无界AI让彩铃变身短视频

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。

百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

1

团队背景

2

项目挑战与技术选型

3

结语

本文标签

声明

相关文章

阅读排行

热门文章