20240529 每日AI必读资讯
程序员的店小二 2024-06-26 16:01:12 阅读 55
🔍清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
- 目标检测系统的标杆 YOLO 系列,再次获得了重磅升级。相同性能情况下,延迟减少 46%,参数减少 25%。
- YOLO 系列框架被广泛用于各种实际应用,包括自动驾驶、监控和物流。
- 首次提出了 YOLO 无 NMS 训练的一致双重分配。
🔗论文地址:https://arxiv.org/pdf/2405.14458
🔗项目地址:https://github.com/THU-MIG/yolov10
🔗 清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜-CSDN博客
🍏苹果豪赌!神秘AI项目曝光,宁死不用英伟达?
- 苹果将在WWDC展示最新的人工智能进展,专注于普通用户可用的AI工具。
- 苹果计划将AI工具整合到主要应用中,改进操作系统通知功能。
- 苹果与OpenAI合作开发聊天机器人,但不会在WWDC展示,而是作为插件显示在iOS18中。
🔗 苹果豪赌!神秘AI项目曝光,宁死不用英伟达?自研芯片全家桶都要AI了-CSDN博客
🔧超牛ComfyUI节点AnyNode来了!要啥功能让AI帮你编写
- 功能编写: 用户可以根据要求编写Python函数,实现任何功能。
- 灵活性: 用户可以通过提示词让LLM帮助编写不同类型的节点,如文本总结、颜色通道调整、Ins滤镜效果等。
- 与ComfyUI的兼容性: AnyNode作为ComfyUI中的节点,可以与其他节点配合使用,链接到所需的输出格式节点。
🔗 https://github.com/lks-ai/anynode
👐 SignLLM:世界上第一个通过文字描述生成手语视频的多语言手语模型
- 该模型将文本或提示转化为手语手势视频。
- 支持包括美国手语(ASL)和德国手语(GSL)在内的八种手语。
- 引入多语言手语数据集 Prompt2Sign,基于此开发生成手语模型。
🔗 SignLLM: Sign Languages Production Large Language Models
🎧 Look Once to Hear:全新的降噪耳机
- 注视对方即可放大或消除对方声音。
- 移动中仍能听到目标说话者的语音,无背景噪声干扰。
- 适用于嘈杂环境,如街道、咖啡馆或社交聚会。
🔗 GitHub - vb000/LookOnceToHear: A novel human-interaction method for real-time speech extraction on headphones.
🔗 https://blink.csdn.net/details/1710980
🎥 Open-Sora 1.1发布:视频生成质量和时长提升
- 生成最长约21秒的视频。
- 使用更高质量的视觉数据和字幕训练。
- 优化CausalVideoVAE架构,提高性能和推理效率。
🔗 https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.1.0.md
🔗 https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0
上一篇: torch报错AssertionError: Torch not compiled with CUDA enabled解决方法 torch适配CUDA降版本、选择gpu版本最终方案
下一篇: AI智能化办公:巧用ChatGPT高效搞定Excel数据分析
本文标签
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。