20240607 每日AI必读资讯

程序员的店小二 2024-07-02 15:31:08 阅读 72

🤖Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型

- 该模型能够生成高质量、几乎无法与人类声音无法区分的语音。

- 无需训练的情况下,只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音。

- 完全能否胜任读小说、配音等任务。

- Seed-TTS 还提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等。

- 还可以通过编辑文本来编辑生成的语音。

🔗 Seed-TTS:

🔗https://blink.csdn.net/details/1720229

🔊Stability AI 开源其音频生成模型:Stable Audio Open

- 能够通过简单的文本提示生成最长47秒的立体声音频(44.1kHz)。

- 适用于创建鼓点、乐器片段、环境声音和拟音录音等。

- 基于transforms扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频质量和多样性。

- 用户可以在自定义音频数据上微调模型,生成符合个人需求的音频样本。

- 与Stable Audio 的比较:与能够生成最长三分钟完整曲目的商业版Stable Audio Open不同,Stable Audio Open 专注于短音频片段和音效。

🔗 https://blink.csdn.net/details/1720232

🎵Suno新功能被Udio抢跑!上传任意音频Udio自动帮延长创作

- 可以上传任意音频片段,Udio会帮你解析旋律、和弦并延长32秒!

- 新功能还包括 WAV 下载、更新的移动界面、更好的桌面端可用性和改进的标签和歌曲搜索。

- 目前上传音频生成的曲目无法发布在平台上,但可以下载保存。

🔗 Udio | AI Music Generator - Official Website

🔗 https://blink.csdn.net/details/1720233

📱Mobile-Agent-v2:让AI可以像真人一样来操控手机执行各种任务

- Mobile-Agent 是一个通过多种技术手段,实现了对移动设备的自动化操作和视觉感知功能。

- 也就是让AI可以像你一样模拟点击、滑动、输入等操作,来操控你的手机,来帮你自动完成一些列任务。  

- 引入了多代理协作架构,通过多个代理协同工作,实现更高效的导航和任务执行。

🔗 https://blink.csdn.net/details/1720235

📰13名OpenAI、谷歌前任现任员工签署联名信,警告前沿AI公司

- 剑指包括 OpenAI 在内的前沿 AI 科技公司的鲁莽和保密文化。

- 阐明目前人工智能行业缺乏足够监管、需要全面改革,并呼吁领先人工智能公司建立更高的透明度。

🔗 自家员工忍不了!13名OpenAI、谷歌前任现任员工签署联名信,警告前沿AI公司-CSDN博客



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。