20240709 每日AI必读资讯
程序员的店小二 2024-07-12 17:31:02 阅读 78
🧠手把手教你如何打造《星际穿越》中的 TARS 机器人复制品!
- 一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。
- 使用树莓派3B+作为主控,配合Adafruit PCA-9685伺服驱动器,通过编写的步态控制程序,实现对伺服电机的精准控制。
- Charles Diaz在过去两年中一直致力于创建一个电影中TARS机器人的迷你复制品,目标是使其像电影中的TARS一样行走。
- 最新版本甚至配备了双机械臂,可以与周围环境互动。
🔗Charles Diaz 详细公布了其制作教程、CAD图纸和零件、代码:https://www.hackster.io/charlesdiaz/how-to-build-your-own-replica-of-tars-from-interstellar-224833#cad
🔗 手把手教你如何打造《星际穿越》中的TARS机器人复制品
🤖科幻照进现实?Open-TeleVision支持远程操控机器人
- 开源远程操作系统,支持多设备轻松上手,实时立体视频流让操控更精准。
- 通过VR头显模拟人类视觉和颈部活动,实现沉浸式体验,告别传统2D视频平庸。
- 使用逆运动学算法和Web平台实现高效远程操作,解决人形机器人自由度匹配问题,数据采集训练机器人自主完成任务。
🔗 https://github.com/Improbable-AI/VisionProTeleop
🔗 https://blink.csdn.net/details/1751980
🔊阿里通义音频生成大模型 FunAudioLLM 开源!
- 能理解和生成各种人类语音
- 主要模型构成:SenseVoice 和 CosyVoice。
- SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。
- CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。
🔗 项目地址:https://fun-audio-llm.github.io
🔗在线演示:https://modelscope.cn/studios/iic/CosyVoice-300M
🔗 阿里巴巴发布语音处理模型FunAudioLLM能理解和生成各-CSDN blink-领先的开发者技术社区
🚀清华大学开源CodeGeeX4-ALL-9B:多语言代码生成模型 超越主要竞争对手
- CodeGeeX4-ALL-9B是CodeGeeX系列的最新创新成果,代表了多语言代码生成的巅峰,设定了新的性能和效率标准。
- 模型拥有9.4亿个参数,在其类别中是最强大的之一,表现出色且具备仓库级别的代码问答功能,提高开发人员与代码库交互效率。
- CodeGeeX4-ALL-9B在性能基准测试中表现卓越,超越了更大的模型,确立了自己作为领先模型的地位。
🔗 https://huggingface.co/THUDM/codegeex4-all-9b
🏫中国AI论文数量全球第一,清华成论文发表热门之地
- 中国AI论文数量全球领先,占全球总量的25%,位居世界第一。
- 学术机构表现卓越,中国科学院和清华大学在AI论文被引用次数上超越了世界顶尖学府。
- 企业贡献显著,谷歌、微软、腾讯、阿里巴巴等企业在AI研究领域贡献突出,展现了中国AI研究的多元化和活力。
🖼️快手开源图像生成模型可图Kolors
- 中英双语支持:采用通用语言模型(GLM)作为文本编码器,支持中英文提示词,能处理长达256个token的上下文。
- 长文本处理能力: 支持长达256个token的上下文长度,让创作者能够细致描绘心中所想,无论是复杂场景还是丰富故事。
- 海量数据训练: 在数十亿个文本图像对上进行训练,模型拥有庞大的知识库,能够生成多样化且精准的图像。
🔗 可图大模型
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。