20240709 每日AI必读资讯

程序员的店小二 2024-07-12 17:31:02 阅读 78

🧠手把手教你如何打造《星际穿越》中的 TARS 机器人复制品！

- 一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。

- 使用树莓派3B+作为主控，配合Adafruit PCA-9685伺服驱动器，通过编写的步态控制程序，实现对伺服电机的精准控制。

- Charles Diaz在过去两年中一直致力于创建一个电影中TARS机器人的迷你复制品，目标是使其像电影中的TARS一样行走。

- 最新版本甚至配备了双机械臂，可以与周围环境互动。

🔗Charles Diaz 详细公布了其制作教程、CAD图纸和零件、代码：https://www.hackster.io/charlesdiaz/how-to-build-your-own-replica-of-tars-from-interstellar-224833#cad

🔗 手把手教你如何打造《星际穿越》中的TARS机器人复制品

🤖科幻照进现实？Open-TeleVision支持远程操控机器人

- 开源远程操作系统，支持多设备轻松上手，实时立体视频流让操控更精准。

- 通过VR头显模拟人类视觉和颈部活动，实现沉浸式体验，告别传统2D视频平庸。

- 使用逆运动学算法和Web平台实现高效远程操作，解决人形机器人自由度匹配问题，数据采集训练机器人自主完成任务。

🔗 https://github.com/Improbable-AI/VisionProTeleop

🔗 https://blink.csdn.net/details/1751980

🔊阿里通义音频生成大模型 FunAudioLLM 开源！

- 能理解和生成各种人类语音

- 主要模型构成：SenseVoice 和 CosyVoice。

- SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件（比如音乐、笑声等）。它可以快速而准确地转录语音内容。

- CosyVoice：语音生成模式，这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

🔗 项目地址：https://fun-audio-llm.github.io

🔗在线演示：https://modelscope.cn/studios/iic/CosyVoice-300M

🔗 阿里巴巴发布语音处理模型FunAudioLLM能理解和生成各-CSDN blink-领先的开发者技术社区

🚀清华大学开源CodeGeeX4-ALL-9B：多语言代码生成模型超越主要竞争对手

- CodeGeeX4-ALL-9B是CodeGeeX系列的最新创新成果，代表了多语言代码生成的巅峰，设定了新的性能和效率标准。

- 模型拥有9.4亿个参数，在其类别中是最强大的之一，表现出色且具备仓库级别的代码问答功能，提高开发人员与代码库交互效率。

- CodeGeeX4-ALL-9B在性能基准测试中表现卓越，超越了更大的模型，确立了自己作为领先模型的地位。

🔗 https://huggingface.co/THUDM/codegeex4-all-9b

🏫中国AI论文数量全球第一，清华成论文发表热门之地

- 中国AI论文数量全球领先，占全球总量的25%，位居世界第一。

- 学术机构表现卓越，中国科学院和清华大学在AI论文被引用次数上超越了世界顶尖学府。

- 企业贡献显著，谷歌、微软、腾讯、阿里巴巴等企业在AI研究领域贡献突出，展现了中国AI研究的多元化和活力。

🖼️快手开源图像生成模型可图Kolors

- 中英双语支持：采用通用语言模型（GLM）作为文本编码器，支持中英文提示词，能处理长达256个token的上下文。

- 长文本处理能力: 支持长达256个token的上下文长度，让创作者能够细致描绘心中所想，无论是复杂场景还是丰富故事。

- 海量数据训练: 在数十亿个文本图像对上进行训练，模型拥有庞大的知识库，能够生成多样化且精准的图像。

🔗 可图大模型

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。