五分钟看完谷歌凌晨发布：叫板 GPT-4o 语音能力，重新定义手机；OpenAI 推出全新测试集

五分钟看完谷歌凌晨发布：叫板 GPT-4o 语音能力，重新定义手机；OpenAI 推出全新测试集 | AI头条...

AI科技大本营 2024-08-18 10:31:02 阅读 96

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

五分钟看完 Made by Google 2024 发布会！

Andrej Karpathy 最新文章：《使用特殊 tokens 对 LLM 进行类似 SQL 注入的攻击》

OpenAI 推出全新测试集 SWE-bench Verified

Sakana AI 发布能独立科研的“AI 科学家”

社区预热 Grok 2.0 功能前瞻

AI 初创公司发布“全球最强” AI 编程助手 Genie，击败 Devin 和 GPT-4

金融时报：有一半的求职者在使用 AI 生成的简历

五分钟看完 Made by Google 2024 发布会！

北京时间 8 月 14 日凌晨 1 点（即太平洋时间 8 月 13 日上午 10 点），Google 在其第九届 Made by Google 发布会上，展示了如何通过其最新的 Gemini AI 平台、Android 操作系统以及 Pixel 产品线将最佳的人工智能技术带给更多用户和更多智能手机。

Google 坚信，当 AI 技术融入人们随身携带的设备中时，能够极大地提升日常生活的生产力，开启新的学习方式，并创造更多表达自我的途径。在这次活动中，Google 详细介绍了针对 Gemini AI 平台和 Android 操作系统的更新，并展示了如何将这些新功能引入最新的 Pixel 设备，包括全新的 Pixel 9 系列手机、Pixel 9 Pro Fold 折叠屏手机、Pixel Watch 3 智能手表以及 Pixel Buds Pro 2 真无线耳机。

发布会开始前，先是致敬了“谷歌之母” Susan Wojcicki，R. I. P.

详情阅读：《从房东到谷歌第16号员工再到YouTube CEO，56岁“谷歌之母”因病去世》

重磅发布 Gemini Live：OpenAI 大危机！

发布会上，谷歌重磅推出了 Gemini Live 服务，该服务首先向使用英语的 Gemini Advanced 订阅用户开放。Gemini Live 类似 ChatGPT 高级语音模式，提供了一种移动对话体验，用户可以与 Gemini 进行自由流畅的对话。该服务采用了增强型语音引擎，能够进行更连贯、更有情感表达力、更逼真的多轮对话。

用户可以在聊天机器人说话时打断它，提出后续问题，聊天机器人会实时适应用户的说话模式。Gemini Live 还允许用户从 10 种新的自然声音中选择回应声音，并可以按照自己的节奏说话，或在回答中途打断并提出澄清性问题。不过，目前 Gemini Live 还不支持多模态输入，该功能预计将在今年晚些时候推出。

现场演示翻车了两次，场面一度十分尴尬

随着与 Android 的深度集成，它不仅可以读取屏幕，还可以与多应用程序集成进行联动。谷歌表示，未来 Gemini Live 能通过摄像头与用户进行交流，不仅能理解用户语言，还能理解用户意图。

布局 Android AI 生态，对抗苹果战线

Gemini 为 Android 构建了深度集成，它不仅可以读取屏幕，还可以与用户已经使用的许多应用程序互动。例如，用户可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。Gemini 专为 Android 打造，支持 200 多个国家和地区的 45 种语言，并支持数十亿台设备，这意味着它是迄今为止世界上使用最广泛的 AI 助手。

Gemini Live 还将与多种 Google 应用（如 Keep、Tasks、Utilities 和 YouTube Music）深度集成。这使得 Gemini 可以在多个应用中随意调用进行联动。帮助用户更好地完成日常任务，比如从邮件中提取信息并添加到购物清单，或者创建特定主题的播放列表等。

Pixel 9：首款搭载 Gemini Nano 的手机

谷歌发布了首批 Gemini AI 加持的旗舰智能手机 Pixel——Pixel 9 系列。谷歌 Pixel 9 系列一共有 3 款全面屏手机——Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL，以及一款折叠屏手机 Pixel 9 Pro Fold。所有新手机全部搭载谷歌自研 Tensor G4 芯片，差距主要来自不同的硬件配置的排列组合。售价方面，Pixel 9 价格为 799 美元（约合人民币 5717 元）起步，而 Pixel 9 Pro 和 Pixel 9 Pro XL 的起售价分别为 999 美元和 1099 美元。作为谷歌第二款折叠屏手机，Pixel 9 Pro Fold 的起售价达到 1799 美元。

据称，Pixel 9 内置的 AI 模型比谷歌去年推出的模型功能强大 3 倍，复杂程度也高 3 倍。借助与 DeepMind 共同设计的 Google Tensor G4 芯片，Pixel 9 可以产生高达每秒 45 个 tokens 的移动输出率，达到业界领先水平。该芯片专为 Gemini 等先进 AI、高精度的照片和视频以及全天候智能助手而打造。

AI 手机具体都能做什么？

本次发布会重点强调了「重新定义手机的用法」。在硬件方面，谷歌提升了 Pixel 9 全系列的运行内存容量，以适应内存需求巨大的设备内置 AI。Pixel 9 配备 12GB RAM，其余机型将配备 16GB RAM。

但更重要的方面是软件——这些手机都配备了一些新的 Pixel 独有的 AI 功能，尤其是购买 Pixel 9 Pro 手机的用户还将获得一年的 Google One AI Premium 服务，该服务可访问谷歌的高级 AI 模型 Gemini Advanced。

下面简短介绍下，包括新款升级以及全新的 Pixel Watch 3 智能手表、Pixel Buds Pro 2 真无线耳机在内，这些 AI 硬件究竟有哪些“黑科技”：

Pixel Screenshots：允许用户通过手动截图记录重要信息，并能通过会话式搜索找回这些信息。

Gemini 理解屏幕：Gemini 现在能够根据手机屏幕上显示的内容进行响应，比如从 YouTube 旅行视频中提取餐厅列表并添加到 Google Maps。

更快更好的 Gemini 助手：Gemini 更新至更快更精准的新版本，支持从多个应用中获取信息或执行操作。

Pixel Buds Pro 2 实时对话：Pixel Buds Pro 2 耳机用户可以通过轻触并按住耳机与 Gemini 进行实时对话。

Magic Editor：允许用户通过文本提示重新构想照片，包括替换天空或其他背景元素。

Add Me：Pixel 9 相机新增功能，可以轻松拍摄合照。先让摄影师进行拍照，随后摄影师与一人交换位置拍照，即可将自己加入照片中。

Pixel Studio：支持基于文本提示创建插图的应用。

Circle to Search 分享：Circle to Search 功能增加了分享选项，可直接分享屏幕或图片的部分区域。

AI 天气总结：推出 AI 驱动的 Pixel Weather 应用，提供定制化的天气报告。

Call Notes：可在通话结束后生成通话摘要，并且所有通话内容不会上传至云端。

Pixel Watch 3：新款智能手表具备“脉搏消失”检测功能，当检测到佩戴者心率降至 0 或处于危及生命水平时，自动呼叫紧急服务。此功能首先在欧盟和英国推出。

全新发布 Pixel Studio

谷歌还推出了新图像生成应用 Pixel Studio，该应用能基于 Imagen 3 模型生成艺术风格图片，将预装在 Pixel 9 系列手机上。生成时间不超过 2 秒。此外，用户还可以通过调用 Gemini 在云端生成更优质的内容，并可直接拖放至电子邮件或聊天中。此应用与苹果新发布的 iPhone 人工智能图像生成器 Image Playground 形成竞争。

国内外 AI 要闻

OpenAI 推出全新测试集 SWE-bench Verified

OpenAI 发布 SWE-bench Verified，这是 SWE-bench 的一个经过人工验证的子集，用于更可靠地评估 AI 模型解决现实世界软件问题的能力。SWE-bench 是一个基准测试，用于评估大语言模型（LLMs）解决来自 GitHub 的现实世界软件问题的能力。SWE-bench Verified 通过人工注释筛选出 500 个样本，以确保问题描述明确且单元测试适当。GPT-4o 在 SWE-bench Verified 上的表现达到了 33.2%，比原始 SWE-bench 上的表现显著提高。

Sakana AI 发布能独立科研的“AI 科学家”

日本 Sakana AI 团队近期发布了一项突破性技术——AI科学家（AI Scientist），该系统能够独立完成科学研究的全过程，包括想法生成、实验迭代、论文撰写以及自动化论文评审。在想法生成阶段，AI 科学家基于给定的模板进行头脑风暴，探索新的研究方向，并确保其原创性。随后，在实验迭代过程中，系统执行实验、生成可视化图表并记录实验细节。到了论文撰写环节，AI 科学家采用 LaTeX 编写格式化的学术论文，并通过 Semantic Scholar 自动引用相关文献。最后，借助于大语言模型驱动的自动评审系统对论文进行评估，形成反馈闭环以不断优化研究成果。这一系统已成功生成一篇题为《自适应双尺度去噪》的论文，并达到了顶级机器学习会议“弱接受”的评价标准，尽管仍存在一些不足之处，但这标志着人工智能在科学研究领域的应用迈出了重要一步。

社区预热 Grok 2.0 功能前瞻

近日，特斯拉 CEO 埃隆·马斯克近日在社交媒体平台 X 上发布重磅消息，宣布 xAI 公司旗下新一代人工智能模型 Grok 2 测试版即将发布。随后，社交媒体上出现了关于 Grok 2.0 的讨论热潮，并有人抢先爆料了下一代 Grok 的信息。根据最新的爆料，Grok 2.0 在编程、写作和新闻生成方面将有显著提升。更引人注目的是，它将利用 FLUX.1 模型生成图像，这一功能无疑将为用户带来全新的体验。

AI 初创公司发布“全球最强” AI 编程助手 Genie，击败 Devin 和 GPT-4

AI 初创公司 Cosine 宣布，他们已经打造出世界上最强的 AI 编程助手 Genie，并在权威榜单 SWE-Bench 中获得了 30.08% 的好成绩，超过了 Devin 和 GPT-4。Cosine 表示，Genie 可以完全自主地与用户进行沟通，并完成解决 Bug、构建功能、重构代码等任务。Cosine 采用特殊数据集和自我改进机制，使 Genie 在复杂编码中表现出色。目前 Genie 已开放申请试用，未来将推出更多惊喜功能。

金融时报：有一半的求职者在使用 AI 生成的简历

近日，金融时报撰文分析了求职者使用人工智能工具来帮助撰写求职信和简历的现象，以及这一趋势对招聘者和就业市场的影响。报道指出，当前大约有一半的求职者正在使用人工智能工具，如 ChatGPT 和 Gemini，来帮助他们撰写简历、求职信和完成评估。由于大量使用 AI 生成的简历，招聘者现在面临着比以往更多的申请，这使得筛选合适候选人变得更加困难。AI 生成的简历如果没有经过适当的编辑，可能会显得笨拙和通用。

根据 Beamery 对 2500 名英国工人的调查，约 46% 的求职者使用生成性 AI 来搜索和申请职位。Canva 对 5000 名全球求职者的另一项调查显示，45% 的人使用生成性 AI 来构建或改进他们的简历。许多大型雇主对使用 AI 持零容忍态度。例如，四大会计师事务所（德勤、安永、普华永道和毕马威）警告毕业生不要在申请中使用 AI。

报道还提到，越来越多的求职者使用 AI 在招聘评估中作弊。Neurosight 的调查显示，57% 的学生求职者使用 ChatGPT 进行求职申请。Neurosight 的调查还发现，使用 ChatGPT 付费版本的求职者更有可能通过心理测量测试，而这些求职者往往来自更高的社会经济背景。

Andrej Karpathy 最新文章：《使用特殊 tokens 对 LLM 进行类似 SQL 注入的攻击》

昨日，Karpathy 大神在社交媒体上发表了一篇关于大语言模型（LLMs）的安全性问题的文章，引起了广泛关注。

在这篇帖子中，Karpathy 指出了 LLMs 在解析输入字符串中的特殊标记（如 <s>,<|endoftext|> 等）时可能存在的安全隐患。他比喻说，这种设计上的便利性，虽然看起来方便，但实际上却可能成为安全隐患，类似于 SQL 注入攻击。他强调用户输入的字符串是不可信任的数据，如果 LLMs 的 Tokenizer API 默认设置不当，就可能将输入字符串中的特殊标记描述符解析为实际的特殊标记，从而破坏输入表示，使 LLMs 偏离正常的分布，导致不可预测的结果。

Karpathy 通过一个例子展示了当前 Hugging Face 的 Llama 3 tokenizer 的默认设置可能导致的两个问题：一是在序列前添加了 <|begin_of_text|> 标记（编号 128000）；二是将 <|end_of_text|> 标记从字符串中解析出来并插入。这可能导致用户文本干扰标记协议，使 LLMs 产生未定义的结果。

为了解决这个问题，Karpathy 建议在进行标记化时使用两个额外的标志：用 add_special_tokens=False 来禁用添加特殊标记，以及 split_special_tokens=True 来在代码中显式添加特殊标记。他认为，编码/解码调用永远不应该通过解析字符串来处理特殊标记，而应该完全废弃这种功能，并通过单独的代码路径显式和程序化地添加这些标记。

他还提到，即使是像 ChatGPT 这样的系统，在处理特殊标记时也表现出了一些奇怪的行为，这可能是由于底层代码的不当处理导致的。Karpathy 呼吁开发者们要更加注意这个问题，总是可视化你的标记并测试你的代码，因为这些问题非常微妙且文档记录不足，他预计目前大约有 50% 的代码存在与此相关的 bug。

最后，Karpathy 警告说，在开发 LLMs 时，开发者应该采取更严格的措施来确保标记化过程的安全性，例如通过更严格的警告或内置的保护措施来防止特殊标记的意外误用。他建议，公共库中的 Tokenizer API 应该删除进行其他操作的选项，因为这些选项甚至被设置为默认值，这可能会导致问题。