20240529 每日AI必读资讯

程序员的店小二 2024-06-26 16:01:12 阅读 55

🔍清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜

- 目标检测系统的标杆 YOLO 系列,再次获得了重磅升级。相同性能情况下,延迟减少 46%,参数减少 25%。

- YOLO 系列框架被广泛用于各种实际应用,包括自动驾驶、监控和物流。

首次提出了 YOLO 无 NMS 训练的一致双重分配。

 🔗论文地址:https://arxiv.org/pdf/2405.14458

 🔗项目地址:https://github.com/THU-MIG/yolov10

🔗 清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜-CSDN博客

🍏苹果豪赌!神秘AI项目曝光,宁死不用英伟达?

- 苹果将在WWDC展示最新的人工智能进展,专注于普通用户可用的AI工具。

- 苹果计划将AI工具整合到主要应用中,改进操作系统通知功能。

- 苹果与OpenAI合作开发聊天机器人,但不会在WWDC展示,而是作为插件显示在iOS18中。

 🔗 苹果豪赌!神秘AI项目曝光,宁死不用英伟达?自研芯片全家桶都要AI了-CSDN博客

🔧超牛ComfyUI节点AnyNode来了!要啥功能让AI帮你编写

- 功能编写: 用户可以根据要求编写Python函数,实现任何功能。

- 灵活性: 用户可以通过提示词让LLM帮助编写不同类型的节点,如文本总结、颜色通道调整、Ins滤镜效果等。

- 与ComfyUI的兼容性: AnyNode作为ComfyUI中的节点,可以与其他节点配合使用,链接到所需的输出格式节点。

🔗 https://github.com/lks-ai/anynode

图片

👐 SignLLM:世界上第一个通过文字描述生成手语视频的多语言手语模型​

- 该模型将文本或提示转化为手语手势视频。​

- 支持包括美国手语(ASL)和德国手语(GSL)在内的八种手语。​

- 引入多语言手语数据集 Prompt2Sign,基于此开发生成手语模型。​

🔗 SignLLM: Sign Languages Production Large Language Models

图片

🎧 Look Once to Hear:全新的降噪耳机​

- 注视对方即可放大或消除对方声音。​

- 移动中仍能听到目标说话者的语音,无背景噪声干扰。​

- 适用于嘈杂环境,如街道、咖啡馆或社交聚会。​

🔗 GitHub - vb000/LookOnceToHear: A novel human-interaction method for real-time speech extraction on headphones.

🔗 https://blink.csdn.net/details/1710980 

🎥 Open-Sora 1.1发布:视频生成质量和时长提升​

- 生成最长约21秒的视频。​

- 使用更高质量的视觉数据和字幕训练。​

- 优化CausalVideoVAE架构,提高性能和推理效率。​

🔗 https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.1.0.md​

🔗 https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。