[AI资讯·0618] 快手AI模型可灵在质量优于Sora,OpenAI和谷歌发布新技术推动AI视频推理发展,Gemini1.5Pro在该榜单中表现突出

cnblogs 2024-06-18 13:13:00 阅读 52

[AI资讯·0618] 快手AI模型可灵在质量优于Sora,OpenAI和谷歌发布新技术推动AI视频推理发展,Gemini1.5Pro在该榜单中表现突出

快手新AI模型"可灵"在视频生成质量上优于Sora,在细节处理、对中国元素理解及适合中国用户方面表现突出;LumaAI同样能生成高质量两分钟视频,具备“电影感”功能以及图片+提示词生成视频的能力;Direct 3D采用3D Diffusion Transformer技术路线;中国首个超长时长、高性价比大模型“视界一粟YiSu”发布,推动视频生成技术发展

AI资讯

  • 陕西推出AI千亿级发展计划,五大产业集群,智算超3000P
  • 试了快手的视频AI,竟然有点领先
  • “技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
  • Gemini视频推理遥遥领先GPT-4o,首个视频多模态基准Video-MME
  • 国产视频大模型PixVerse发布运动笔刷,网友:效果超Runway
  • AI研究的主要推动力是什么?ChatGPT团队科学家:算力成本下降
  • LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
  • 大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉」
  • 为什么你的 iPhone,肯定用不上「苹果 AI」?
  • 答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
  • 3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型
  • 中国版Sora级视频大模型发布,打造“视频-Native”超级应用

陕西推出AI千亿级发展计划,五大产业集群,智算超3000P

陕西省推出《加快推动人工智能产业发展实施方案(2024-2026年)》,旨在通过建设产业园、突破核心技术、打造产业集群等措施,实现人工智能产业的高质量发展。目标包括建设多个产业园区、引入国家级重点项目、新增制造业企业通过DCMM贯标认证等。方案聚焦算力供给、数据集成与大模型布局,实施“强基、创智、赋智、聚智”四大行动,以提升技术底座、培育主体、优化生态,并将陕西打造为具有重要影响力的人工智能产业聚集地。具体措施涉及强化算力、扩大数据供应、布局通用和行业大模型等,同时推动创新产品研发与成果转化,实现制造业全流程智能化升级。方案还规划建设产业集聚区,培育优势企业,并提供保障措施,包括统筹协调机制、试点示范推广、完善支撑体系及强化安全保障,以促进人工智能与实体经济深度融合,赋能新型工业化发展。(报道详情)

试了快手的视频AI,竟然有点领先

快手新AI模型"可灵"在外网火了,与Sora同台竞技,表现亮眼。在蚂蚁爬行、拉力赛车等场景中,可灵生成视频质量高,细节处理优于Sora。此外,可灵对中国元素理解更佳,适合中国用户。LumaAI同样能生成高质量两分钟视频,并有“电影感”和图片+提示词生成视频的功能。两款AI在吃播、电影感、物理世界理解等方面各有千秋,但快手的可灵AI在效果稳定性上表现更优。快手通过模仿Sora的技术路线并采用DiT架构提升模型性能,在视频数据丰富的背景下,实现了较好的效果。然而,商业化问题成为AI发展的瓶颈,大部分厂商难以找到盈利模式,高昂的成本和会员收费并未覆盖成本。尽管如此,快手凭借自身平台优势,可灵AI有潜力探索新的商业模式,如“发帖助手”等定位可能带来流量和收入。本文对两款AI进行了详细对比,并分析了AI发展面临的商业化挑战及快手的潜在机会。(报道详情)

“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?

“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?

金证科技携手英特尔打造金融领域大模型推理方案,通过组合式AI(大模型+小模型+工具)解决金融业务需求,K-GPT等大模型在特定任务中展现优势,同时优化成本与资源利用。英特尔至强®CPUMax系列处理器提供高带宽内存和内置英特尔®高级矩阵扩展引擎,大幅提高计算性能,支持高效推理和大规模矩阵运算。金证通过与英特尔合作,实现硬件、软件优化的深度融合,为金融行业应用大模型树立标杆,助力金融机构数字化转型,并在科技节中展示了AI技术的实际应用前景。(报道详情)

Gemini视频推理遥遥领先GPT-4o,首个视频多模态基准Video-MME

OpenAI和谷歌发布的新技术将AI视频推理推向新高度,但缺少全面评估大模型视频推理能力的标准。为弥补这一空白,Video-MME基准应运而生,全面评估多模态大模型的综合视频理解能力,并得到业界认可。Gemini1.5Pro在该榜单中表现突出,在视频理解和处理上占据主导地位,其性能超越了GPT-4o和GPT-4V/o等其他模型。Video-MME基准特点包括:覆盖不同长度、类型和模态的视频数据集,采用全人工标注确保高质量;评估时间维度广泛性、数据模态丰富性和视频类型的多样性。实验结果显示Gemini1.5Pro在长视频理解上表现优异,并支持音频输入,优于其他开源模型如VILA-1.5。尽管当前多模态大模型在长视频理解方面仍有进步空间,Video-MME基准的推出为评估和改进这些模型提供了重要工具。(报道详情)

国产视频大模型PixVerse发布运动笔刷,网友:效果超Runway

国产视频大模型PixVerse发布运动笔刷,网友:效果超Runway

MagicBrush运动笔刷工具因其能够精准控制视频元素运动方式、提升用户操作灵活性和可控性,在AI视频社区备受关注。该工具允许用户通过涂抹区域和绘制轨迹来调整视频中的物体动作,类似“神笔马良”的效果,实现在生成视频时如同修图般的精细操控。PixVerse是继Runway之后第二家发布类似功能的AI视频生成公司,其MagicBrush运动笔刷在多主体控制、画面含义理解等方面表现出色。用户能通过该工具实现多目标精准移动、遵循物理规律创造生动自然的场景,并且比Runway更灵活地绘制运动轨迹和自定义方向与距离。爱诗科技CEO王长虎在智源大会上介绍,PixVerse采用多种技术路线探索文生视频模型生成,包括Diffusion+Unet架构以及DiT架构。同时,公司着重于提升视频可控性,通过角色一致性(C2V)功能优化图像保真度和美学质量,并研发MagicBrush网络结构以简化交互层面并提高运动控制精度。爱诗科技专注于解决用户实际需求,如推出C2V功能实现连续、可控的视频生成,以及MagicBrush运动笔刷功能。这些创新使得PixVerse在竞争激烈的AI视频生成市场中脱颖而出,吸引了大量用户的积极反馈和使用,其产品用户体验和效果得到显著提升。(报道详情)

AI研究的主要推动力是什么?ChatGPT团队科学家:算力成本下降

AI研究的主要推动力是计算成本呈指数级下降及规模扩展。HyungWonChung通过分析Transformer的发展历史,阐述了编码器-解码器与仅解码器架构之间的差异及其对AI研究的意义。找到主要推动力后,理解它对于预测AI未来至关重要。Chung强调回顾过去架构的重要性,旨在提供一个统一视角,揭示哪些结构可能最终被规模扩展取代。他指出AI社区在添加结构方面做得很好,但在移除结构方面还需更多关注。计算成本的下降推动了AI研究的发展,使得更少结构的模型更具扩展性。通过理解历史中的关键结构选择及其原因,可以更好地洞察从过去到现在的变化,并据此预测未来方向。(报道详情)

LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告

大语言模型(LLM)的提示技术研究揭示了其行为的怪异特性:重复内容可显著提高性能,而匿名化人名则导致准确性下降。马里兰大学等12所机构的30多位研究人员对LLM提示进行了大规模系统研究,发布了一篇详尽报告,覆盖4,797条记录筛选出1,565篇相关论文。报告中指出,奇奇怪怪的大语言模型在生成式AI行业中存在一些未被充分理解的现象。研究发现了以下现象:-重复内容:某些提示中的重复信息能显著提升LLM的性能。-包含人名:在提示中提及具体人物名字对准确性有重要影响。-示例选择与顺序敏感性:示例的选择和排列顺序对LLM的表现至关重要,甚至可能使准确率大幅波动。此外,研究还探讨了代码辅助推理、文本提示技术分类(如少样本学习、零样本推理等)、多语言和多模态提示方法。报告提出了一种全面的分类框架,并强调了在设计提示时的关键决策点。研究提出了提示工程过程,包括数据集上的推理、性能评估与提示模板修改三个步骤。还回顾了用于自动优化提示的技术策略,如答案工程,以及针对标注任务的LLM输出注释结果分析。报告总结了最常用的提示技术,指出少样本学习、零样本推理、高质量上下文提示示例和自洽等方法使用频率较高。同时,多模态提示也得到了发展,涵盖了图像、视频等不同形式的数据处理策略。这项研究为理解LLM的提示技术提供了全面视角,并揭示了这些模型在特定条件下的行为模式与敏感点。(报道详情)

大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉」

AI初创公司Alembic宣布推出全新AI系统,彻底解决了大模型生成虚假信息的问题,实现了消除"幻觉"的目标。该系统能够在企业数据集中识别随时间变化的因果关系,而非仅限于相关性,确保输出确定性和谈论因果关系的能力。此前,AI模型在生成看似逼真文本时常产生错误或无意义信息,成为企业应用的主要障碍。Alembic通过安全可靠的技术手段,使AI系统能够从各种数据源摄取信息,并处理"可观测性和分类器"模块和几何数据组件。结果输入因果图神经网络(GNN),生成确定性预测及战略建议。公司建立了超级计算机基础设施并开发了新数字技术,将企业数据表示为时间感知图神经网络,以捕捉事件与数据点随时间形成的关联。AlembicAI不仅学习模式和相关性,还能识别推动业务成果的因果关系,高度预测未来行动影响,并推荐实现目标的最佳干预措施。展示分析复杂数据生成战略建议的过程表明了其技术实力。Alembic在财富500强企业中受到浓厚兴趣,获得Nvidia公司博士专家及未公开大客户认可,显示出市场潜力。然而,该公司面临挑战证明最终技术成果能超越早期试点,为大型企业提供准确结果。"无幻觉"方法可能成为关键卖点,也可能揭示研究突破与实际影响之间差距的警示故事。(报道详情)

为什么你的 iPhone,肯定用不上「苹果 AI」?

为什么你的 iPhone,肯定用不上「苹果 AI」?

硬件限制导致老款iPhone无法使用新AI功能。苹果追求设备上的隐私处理策略,强调在用户设备上直接执行AI任务以保护数据安全。AI模型需要足够的RAM空间运行,而老款手机的内存限制是主要问题之一。苹果AI功能仅限于特定机型,如新款iPhonePro系列及配备M1或更新芯片的iPad和Mac。尽管有理论上的逆向工程让部分AI功能在非标准硬件上运行,但实际效果有限。未来是否所有AI功能都能兼容更广泛的设备仍有待验证,预计首批AI功能将在iOS18发布时与新款iPhone一同推出,届时用户将能亲自体验苹果AI的实际价值和效果。(报道详情)

答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思

大语言模型(LLM)发展迅速,引发了对公平性与可靠性的讨论。当前主要评估框架如OpenCompass等推动了进步,但专注于核心组件可信度的团队较少。上海算法创新研究院和中国人民大学的研究团队发布《xFinder》论文,深入分析LLM评估流程,重点评估答案抽取器在可靠性与一致性方面的表现。论文指出现有方法依赖正则表达式(RegEx)进行答案抽取,最佳准确率仅为74.38%,且容易被拟合影响结果。为解决这一问题,《xFinder》提出了一种新模型,具备高度鲁棒性,能更准确地抽取关键答案,显著优于当前最佳框架中的RegEx方法,并支持多样化题型评估。实现过程包括生成LLM响应、构建KAF数据集和训练xFinder。团队构建了包含26,900个训练样本的KAF数据集,用于有效训练模型。实验结果显示,在不同任务上,xFinder-qwen1505的平均提取准确率高达96.88%,远超最佳评估框架中的RegEx方法,并显著优于GPT-4。此外,《xFinder》在现实世界场景中对多种LLM进行了评估,证实了其高鲁棒性和泛化能力。实验揭示了关键发现:不同模型在不同框架下的排名差异大、xfinder一致性高、直接使用选项文本能提升排名的一致性。《xFinder》通过优化关键答案提取模块,显著提高了LLM评估的准确性和可靠性,并展现出了高度鲁棒性和泛化能力。未来研究将继续优化此方法并探索其他评估领域,为LLM性能评估提供更可靠的基础。(报道详情)

3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型

3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型

全球首个原生三维生成大模型Direct3D由DreamTech发布,并公开了相关学术论文《直接立方体:通过三维潜扩散转换器的可扩展图像到三维生成》。Direct3D解决了高质量三维内容生成难题,采用3DDiffusionTransformer(3D-DiT)技术路线,不经过中间2D阶段直接生成三维模型。与传统2D-to-3Dlifting方法相比,Direct3D在原理上具有优势,但面临高效3D模型表征、训练架构和高质量大规模3D训练数据的挑战。Direct3D通过创新提出类似OpenAISORA的3DVAE来提取特征,采用改进优化后的DiT架构,并结合DreamTech自研的数据合成引擎生成大量高质量3D数据。实验验证显示,Direct3D在三维模型生成质量上超越主流2D升维方法,主要得益于高效表征、对齐模块和使用大规模高质量3D数据。技术架构上,Direct3D采用与OpenAISORA相似的DiT架构,符合ScalingLaw原则,通过增加参数量和训练数据量提升智能程度。在大语言模型、图像生成和视频生成领域中均得到验证。Direct3D是全球首个公开的3D内容生成方向上的DiT实践,展示了原生3D技术路线的优势。随着Direct3D推出,3D生成领域进入商用时代。与传统方案相比,Direct3D生成的3D模型质量达到商用级别,解决了几何结构、精度、表面细节和mesh面片数量等问题,适用于家用及工业打印机。模型参数量增加后,3D生成可应用于更多行业。基于Direct3D大模型,DreamTech推出了面向C端用户的Animeit!和面向创作者的3D内容创作平台两款尝鲜产品。Animeit!将用户输入转换为高质量二次元风格的3D人物形象,并具备骨骼节点用于动作绑定。另一款产品让用户通过文本描述或上传图片在短时间内获得高质量3D模型。DreamTech专注于3DAI技术,致力于提升全球AIGC创作者及消费者的体验,目标打造与真实世界无缝对接、实时互动的4D时空体验,实现通用人工智能(AGI)。公司汇集了全球顶尖AI人才,核心团队由英国两院院士、国家级青年人才以及多位深圳市高层次人才组成。(报道详情)

中国版Sora级视频大模型发布,打造“视频-Native”超级应用

全球视频生成领域迎来新突破,中国首个超长时长、高性价比大模型“视界一粟YiSu”发布,标志着视频生成技术进入快速爆发期。此款模型在性能与成本之间达到极致平衡,拥有16秒原生超长时长,可生成至1分钟以上,具备强大运动表现力和物理世界理解能力。通过融入LLM和扩散模型的自研架构,极大优化了多模态融合、训练及推理效率,并实现了模型效果的极致优化。视界一粟YiSu基于极佳科技自研技术路线,超越DiT(DiffusionTransformer)基础,结合LLM与扩散模型优势,提供视频生成最佳方案。这一模型有望推动AI-Native和视频-Native爆款应用的诞生,为用户提供AI时代前所未有的体验价值。面向通用智能时代,视界一粟YiSu将加速实现长视频生成的大规模产品应用,其数据引擎能力对自动驾驶、通用机器人等物理世界通用智能具有关键作用。极佳科技世界级人工智能综合团队在技术与产业落地方面拥有丰富经验,通过打造基础模型和超级应用的智能闭环飞轮,推动行业走向通用智能时代。未来,视界一粟YiSu将助力更多创新技术和产品的发展,为用户提供更多价值,加速通用智能时代的到来。(报道详情)


关注本公众号,我们共同学习进步👇🏻👇🏻👇🏻

微信公众号:老牛同学

微信公众号:老牛同学

Stable Diffusion开源大模型

Stable Diffusion 3 文生图“开源英雄”大模型笔记本部署和使用教程,轻松实现AI绘图自由

Qwen2-7B 开源大模型

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API调用和WebUI对话机器人

Llama3-8B 开源大模型

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于Llama 3搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

GLM-4-9B 开源大模型

本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面

大模型应用

借助AI大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI已来,我与AI一起用Python编写了一个消消乐小游戏

Python游戏编程:一步步用Python打造经典贪吃蛇小游戏




声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。