20240726 每日AI必读资讯

程序员的店小二 2024-08-02 10:31:02 阅读 76

AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!

- 牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了Nature封面。

- 称合成数据就像近亲繁殖,效果无异于投毒。破解之法就是——更多使用人类数据!

🔗 AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!-CSDN博客

AI音乐生成工具Udio更新 V1.5 模型音质提升显著

- 大幅提升音乐音质和控制,同时优化了中文语言支持

- Udio推出其最新的v1.5版本,这一版本标志着音乐创作技术的重大飞跃。

- Udio v1.5在音频质量、功能丰富度和用户体验方面实现了全面提升。

- 支持生成48kHz立体声轨道,提升了清晰度、乐器分离度、瞬态、连贯性和音乐性。

- 不仅提升了音质,还新增了多项强大功能,进一步增强了用户的创作自由度和灵感。

🔗 Udio | AI Music Generator - Official Website 

震撼来袭!Open-Sora Plan v1.2发布,清晰度、推理速度起飞

- 引入新的3D全注意力架构,提升了对物理世界的理解能力。

- 改进了从文本生成视频的能力。

- 通过新架构和优化的VAE结构,提升了视频生成的清晰度和一致性。

- 新的3D全注意力架构解决了之前版本无法同时处理空间和时间维度的问题。

- 优化后的CausalVideoVAE结构提高了模型的推理速度和性能。

🔗GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.2.0.md

Bing 推出生成式AI搜索功能

- 新的搜索体验结合了大型和小型语言模型

- 根据用户的查询提供量身定制的动态响应结果

- 例如,当用户搜索特定主题时,Bing会生成深入的AI驱动的解释,涵盖历史、起源、顶级示例等内容。

SpeechGPT2:一个端到端的语音对话语言模型  

- 该项目由复旦大学计算机学院开发,类似于 GPT-4o 能够感知和表达情感

- 能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

- 超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

- SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

- 目前仍在开发中,团队计划未来开源技术报告、代码和模型权重。

 🔗 SpeechGPT2

 🔗 https://blink.csdn.net/details/1767140

Meta AI 研究员:网络上的文本基本都是“狗屎”

- Latent Space采访了 Meta  AI 研究员 Thomas Scialom,他领导了 Llama2 和现在的 Llama3 训练后工作。

- 详细讨论了Llama 3.1预训练(如合成数据、数据管道、缩放法则等)和后训练(如强化学习人类反馈 (RLHF) 与指令调优、评估、工具调用)方面的内容。

- 据 Thomas Scialom:

1. 合成数据:

- 我的直觉是,网络上的文本都是狗屎,在这些标记上进行训练是在浪费计算量"。

- Llama 3 后期训练没有使用任何人类书写的答案,而是完全依赖于Llama 2生成的纯合成数据。”

2. 合成数据的具体应用:

- 代码生成:使用三种方法生成代码合成数据,包括代码执行反馈、编程语言翻译和文档反向翻译。

-数学推理:借鉴了“让我们逐步验证"作者的研究,进行合成数据生成。

-多语言处理:通过90%的多语言令牌继续预训练,收集高质量的人类注释。

- 长文本处理:依赖于合成数据来处理长文本的问答、长文档摘要和代码库推理。

- 工具使用:在Brave搜索、Wolfram Alpha和Python解释器上训练进行单次、嵌套、并行和多轮函数调用。

3. 强化学习与人类反馈(RLHF):

- 广泛使用人类偏好数据进行模型训练。

- 强调了人类在两者之间进行选择(如选择两首诗中更喜欢哪一首)而非创作(从零开始写一首诗)的能力。

4. Meta 已经在6 月份开始训练Llama 4,听起来一大重点将是围绕智能体展开。

5.多模态版本将有更多参数,稍后发布

 



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。