20240529 每日AI必读资讯

程序员的店小二 2024-06-26 16:01:12 阅读 55

🔍清华接手，YOLOv10问世：性能大幅提升，登上GitHub热榜

- 目标检测系统的标杆 YOLO 系列，再次获得了重磅升级。相同性能情况下，延迟减少 46%，参数减少 25%。

- YOLO 系列框架被广泛用于各种实际应用，包括自动驾驶、监控和物流。

- 首次提出了 YOLO 无 NMS 训练的一致双重分配。

🔗论文地址：https://arxiv.org/pdf/2405.14458

🔗项目地址：https://github.com/THU-MIG/yolov10

🔗 清华接手，YOLOv10问世：性能大幅提升，登上GitHub热榜-CSDN博客

🍏苹果豪赌！神秘AI项目曝光，宁死不用英伟达？

- 苹果将在WWDC展示最新的人工智能进展，专注于普通用户可用的AI工具。

- 苹果计划将AI工具整合到主要应用中，改进操作系统通知功能。

- 苹果与OpenAI合作开发聊天机器人，但不会在WWDC展示，而是作为插件显示在iOS18中。

🔗 苹果豪赌！神秘AI项目曝光，宁死不用英伟达？自研芯片全家桶都要AI了-CSDN博客

🔧超牛ComfyUI节点AnyNode来了！要啥功能让AI帮你编写

- 功能编写: 用户可以根据要求编写Python函数，实现任何功能。

- 灵活性: 用户可以通过提示词让LLM帮助编写不同类型的节点，如文本总结、颜色通道调整、Ins滤镜效果等。

- 与ComfyUI的兼容性: AnyNode作为ComfyUI中的节点，可以与其他节点配合使用，链接到所需的输出格式节点。

🔗 https://github.com/lks-ai/anynode

👐 SignLLM：世界上第一个通过文字描述生成手语视频的多语言手语模型

- 该模型将文本或提示转化为手语手势视频。

- 支持包括美国手语（ASL）和德国手语（GSL）在内的八种手语。

- 引入多语言手语数据集 Prompt2Sign，基于此开发生成手语模型。

🔗 SignLLM: Sign Languages Production Large Language Models

🎧 Look Once to Hear：全新的降噪耳机

- 注视对方即可放大或消除对方声音。

- 移动中仍能听到目标说话者的语音，无背景噪声干扰。

- 适用于嘈杂环境，如街道、咖啡馆或社交聚会。

🔗 GitHub - vb000/LookOnceToHear: A novel human-interaction method for real-time speech extraction on headphones.

🔗 https://blink.csdn.net/details/1710980

🎥 Open-Sora 1.1发布：视频生成质量和时长提升

- 生成最长约21秒的视频。

- 使用更高质量的视觉数据和字幕训练。

- 优化CausalVideoVAE架构，提高性能和推理效率。

🔗 https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.1.0.md

🔗 https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。