20240709 每日AI必读资讯

程序员的店小二 2024-07-12 17:31:02 阅读 78

🧠手把手教你如何打造《星际穿越》中的 TARS 机器人复制品!

- 一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。

- 使用树莓派3B+作为主控,配合Adafruit PCA-9685伺服驱动器,通过编写的步态控制程序,实现对伺服电机的精准控制。

- Charles Diaz在过去两年中一直致力于创建一个电影中TARS机器人的迷你复制品,目标是使其像电影中的TARS一样行走。

- 最新版本甚至配备了双机械臂,可以与周围环境互动。

🔗Charles Diaz 详细公布了其制作教程、CAD图纸和零件、代码:https://www.hackster.io/charlesdiaz/how-to-build-your-own-replica-of-tars-from-interstellar-224833#cad

🔗 手把手教你如何打造《星际穿越》中的TARS机器人复制品

🤖科幻照进现实?Open-TeleVision支持远程操控机器人

- 开源远程操作系统,支持多设备轻松上手,实时立体视频流让操控更精准。

- 通过VR头显模拟人类视觉和颈部活动,实现沉浸式体验,告别传统2D视频平庸。

- 使用逆运动学算法和Web平台实现高效远程操作,解决人形机器人自由度匹配问题,数据采集训练机器人自主完成任务。

🔗 https://github.com/Improbable-AI/VisionProTeleop

🔗 https://blink.csdn.net/details/1751980 

 🔊阿里通义音频生成大模型 FunAudioLLM 开源!

- 能理解和生成各种人类语音

- 主要模型构成:SenseVoice 和 CosyVoice。

- SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。

- CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。

🔗 项目地址:https://fun-audio-llm.github.io

🔗在线演示:https://modelscope.cn/studios/iic/CosyVoice-300M

🔗 阿里巴巴发布语音处理模型FunAudioLLM能理解和生成各-CSDN blink-领先的开发者技术社区

🚀清华大学开源CodeGeeX4-ALL-9B:多语言代码生成模型 超越主要竞争对手

- CodeGeeX4-ALL-9B是CodeGeeX系列的最新创新成果,代表了多语言代码生成的巅峰,设定了新的性能和效率标准。

- 模型拥有9.4亿个参数,在其类别中是最强大的之一,表现出色且具备仓库级别的代码问答功能,提高开发人员与代码库交互效率。

- CodeGeeX4-ALL-9B在性能基准测试中表现卓越,超越了更大的模型,确立了自己作为领先模型的地位。

🔗 https://huggingface.co/THUDM/codegeex4-all-9b

🏫中国AI论文数量全球第一,清华成论文发表热门之地

- 中国AI论文数量全球领先,占全球总量的25%,位居世界第一。

- 学术机构表现卓越,中国科学院和清华大学在AI论文被引用次数上超越了世界顶尖学府。

- 企业贡献显著,谷歌、微软、腾讯、阿里巴巴等企业在AI研究领域贡献突出,展现了中国AI研究的多元化和活力。

🖼️快手开源图像生成模型可图Kolors

- 中英双语支持:采用通用语言模型(GLM)作为文本编码器,支持中英文提示词,能处理长达256个token的上下文。

- 长文本处理能力: 支持长达256个token的上下文长度,让创作者能够细致描绘心中所想,无论是复杂场景还是丰富故事。

- 海量数据训练: 在数十亿个文本图像对上进行训练,模型拥有庞大的知识库,能够生成多样化且精准的图像。

🔗 可图大模型

 



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。