AI 教母对话 ChatGPT 之母:大模型具备说服、影响人类甚至控制整个社会的危险能力...
AI科技大本营 2024-07-18 09:01:18 阅读 80
作者 | 王启隆
出品 | AI 科技大本营(ID:rgznai100)
沉寂了两周的 OpenAI,在这周终于有了动静。
首先是 7 月 7 日,OpenAI 的首席执行官(CEO)Sam Altman 在《时代》杂志上官宣了自己将成立一家新公司:Thrive AI Health。这是家医疗保健公司,如果一言以蔽之,便是 AI 驱动医疗。
相对应的是,OpenAI 官方随后在 7 月 10 日发布了 12 天以来的第一则推特,官宣了与洛斯阿拉莫斯国家实验室的合作,研究 AI 用于生物科学。
这几天,彭博社又爆料了 OpenAI 的最新动向:他们在 7 月 9 日公司内部的全体会议上与员工分享了一套全新的分类系统,给人工智能划分了五个等级,乍一看就像自动驾驶的等级一样。
让我们先回忆一下自动驾驶的分级:L0(应急辅助)、L1(部分驾驶辅助)、L2(组合驾驶辅助)、L3(有条件自动驾驶)、L4(高度自动驾驶)、L5(完全自动驾驶)。事实上,在 2023 年 11 月发表的一篇论文中,来自 Google DeepMind 的数位研究者就提出过一套包含五个递进级别的 AI 框架,其中包含了“专家”和“超人”等不同的阶段,和自动驾驶分级比较类似。
而在 OpenAI 的分级中,他们目前认为自身正处于第一级“聊天机器人”,但正接近第二级“推理者”水平。这一级别的 AI 系统具备类似拥有博士学位教育但未配备任何工具的人类,能执行基础的问题解决任务。据悉,OpenAI 的管理层在会议中还向员工们展示了涉及 GPT-4 AI 模型的一个研究项目,他们认为这个项目展现了 AI 新的技能,其推理能力已经接近人类水平。
按照 OpenAI 设定的等级划分,通往 AGI 的第三级将被称为“智能体”(Agent),指的是那些能在用户授权下花费数日时间自主执行任务的 AI 系统。第四级是具备创新能力的 AI。而最顶级的,则被称为“组织者”,能代替公司老板。
最后,还是 7 月 9 日这个时间点,约翰霍普金斯大学和 Vox Media 发起了为期一年的合作首场活动,他们这次重点关注人工智能,召集了技术、科学和公共政策的高风险交叉领域工作的最聪明的人才进行讨论。其中有一场对话,汇聚了三位科技界的“女强人”:
图左是本场对话的主持人 Kara Swisher,她是一位顶尖科技记者、播客主持人,以及《读完请烧毁:邂逅科技》的作者。她以深入报道硅谷和科技巨头而闻名,是 Recode 的联合创始人,曾为《纽约时报》撰稿,并主持“On with Kara Swisher”和“Pivot”等播客。
图右是本场对话的主嘉宾,Mira Murati。她和李飞飞一样是 AI 领域的杰出女性领袖,曾带领团队开发了 GPT-3 模型,并推动 ChatGPT 向公众开放,被认为是“ChatGPT 之母”,目前担任 OpenAI 的首席技术官(CTO)。此前,我们已经整理过许多 Mira 的采访,比如《OpenAI CTO 采访揭底“背刺”奥特曼,GPT-4 已经碰到了大模型能力的瓶颈?》。
此外,活动还邀请了李飞飞,著名的计算机科学家、斯坦福大学教授,以及谷歌云人工智能和机器学习首席科学家。她创建的 ImageNet 直接影响了 2010 年至今的图像识别和计算机视觉领域,为机器学习这十年的突飞猛进夯实了基础。此前,李飞飞面对“AI 教母”这一称呼的时候表示,虽然她从未自诩 AI 教母,但既然男性可以被称为各种领域的教父,那么女性也完全可以被誉为教母,所以接受了这一荣誉。
在这场对话中,除了我们已经“耳熟能详”(Mira 每次采访都会提及)的大模型安全隐私问题,她还讨论了 GPT-5、Sora、GPT-4o 的声音争议以及“OpenAI 宫斗”的相关透露。以下为全文整理(有调整):
用户请求在发送给 OpenAI 后不会被存储,IP 地址也将被隐藏
Kara Swisher:众所周知,苹果的电脑、手机和平板电脑将在今年的某个时候开始内置 ChatGPT。显然,这是一个重大事件。这是苹果首次这样做,未来他们可能也会与其他公司合作。
我希望从你们的角度谈谈,这个合作关系是怎样的?我早些曾和 Tim Cook(苹果 CEO)有过简短交流,了解了他的观点,所以我想听听你对此的看法。
Mira Murati:这对我们来说是一个重要的里程碑。苹果是一家标志性的消费产品公司,而我们的目标是尽可能地让大众接触并体验到 AI 的优秀应用。这次合作是将 ChatGPT 带给所有苹果设备用户的一个绝佳机会,从此无需用户在设备间切换。接下来的几个月里,我们将与苹果紧密合作,确定在产品层面具体会是什么样子。很快就会有更多细节分享给大家。
Kara Swisher:如果你不介意的话,我想了解更多具体细节。你们具体在做什么?对于同样的问题,Tim Cook 告诉我的是,用户可以去 ChatGPT 获取答案 —— 很明显,他们需要改进 Siri,因为 Siri 现在真的很糟糕。
但你们目前的情况让我想到了网景公司(Netscape)曾经的遭遇,而你显然不希望 OpenAI 成为 AI 领域的网景。所以,请谈谈你们的期望,为什么你们比其他人更早和苹果达成合作?
网景是 1990 年代互联网浏览器市场的先驱,其 Netscape Navigator 浏览器曾一度占据市场主导地位。然而,随着微软在 Windows 操作系统中捆绑 Internet Explorer 浏览器,网景逐渐失去了市场份额,最终被收购。
Mira Murati:确实,我可以详细讨论产品集成方面的问题。我们希望带来的真正是 OpenAI 的模型能力,即我们开发的模型、多模态性和交互性,将这些深思熟虑地带入苹果设备中。
最近你可能注意到了 GPT-4o 的发布。这是我们首次看到这些模型在交互维度上的飞跃,而不仅仅是能力或纯粹的智能。这真的很有意义,因为到目前为止,我们与设备的互动主要受限于文本输入。所以这是一个拥有更丰富、更自然的信息交互方式的绝佳机会,无论是与他人还是信息本身,这将大大减少交互的局限性。它开启了众多可能性,而这就是我们所追求的。
此外,我们拥有非常高超的技术,用户的请求在发送给 OpenAI 后不会被我们存储,用户 IP 地址也将被隐藏,这对苹果来说也很重要。
编者注:那封锁地区 API 是如何实现的呢?详见《警告!OpenAI 宣布全面封锁中国 API 接入》。
Kara Swisher:深入说一说这点。所以,你们是否仍能从这些请求中收集数据来训练你的模型?
Mira Murati:不,现在对于我们的用户和客户,我们都不会用他们的数据来训练我们的模型,除非他们明确允许我们这么做。
Kara Swisher:苹果这样的公司非常注重声誉,尤其关心隐私问题以及虚假的信息。
Mira Murati:我认为我们达成了非常契合的伙伴关系。当涉及到隐私和信任时,对于 OpenAI 的使命至关重要的是,我们要以一种让人们感到自信的方式构建和部署技术,让他们觉得自己对我们的构建有代理权和发言权。从这个意义上说,这个合作是非常自然的,我们感觉非常一致,只会引领我们朝着我们希望的方向前进。
具体到你的问题,关于虚假信息,这当然是非常复杂的,因为我们正在建立在数十年的虚假信息基础上,而随着 AI 的发展,情况变得越来越激烈。但当然,我们有了互联网,有了社交媒体,这些都在某种程度上加剧了问题。实际上,AI 将所有这些问题推向了风口浪尖是一件好事,因为这个问题引起了如此多的关注和强度,似乎有一种集体努力和责任感,去做一些有意义的事情来应对这个问题。
我认为这其实是一个迭代的过程,我们必须边走边试。如果你回顾过去 100 年新闻和媒体的治理,会发现每当有新技术出现,事物就会适应变化,商业模式都会出现更替。也许这不是最好的例子,但我的意思是,每当有新技术出现时,它总是迭代式的,我们总会适应它。我认为技术革新将帮助我们处理虚假信息,然后才会涉及到更复杂的问题,比如社会对此的准备。
Kara Swisher:说到苹果,你得小心翼翼,不能出错,否则他们就会找你麻烦。我很好奇,这场合作是怎么开始的?Tim Cook 和 Sam Altman 之间最初是如何展开对话的?你又是怎样参与其中的呢?
Mira Murati:具体起源我已经记不清了,但这件事已经酝酿了一段时间。
Kara Swisher:那你们是否在与其他公司探讨类似的交易?显然,你们与微软有合作关系 —— 噢,(对观众说)Mira 对我露出了一丝微笑,似乎有什么不愿透露的秘密。不过我不会追问。
我们继续。最近,OpenAI 已经与新闻集团、《大西洋》和 Vox Media 签署了协议,授权使用这些媒体的内容。这样一来,至少有三个潜在的法律纠纷可以避免了。(观众大笑)
我确实拥有自己的播客,而且它并未包含在你们与 Vox Media 的交易中。请注意这一点。我可能会考虑授权,但可能性不大,因为我不愿意让任何人,包括你们,拥有我的信息。所以,你们会如何说服我授权我的信息呢?
Mira Murati:我知道你早晚会问到这个问题,所以现在我就提前回答。在评估训练我们模型所需的数据时,我们会考虑三类不同的数据源:公开可访问的数据、我们与出版商的合作,以及我们付费请人工标注员标注的特定数据,还包括那些选择同意我们使用其数据的用户。这些是我们数据的主要来源。
至于与出版社的合作,我们非常重视信息的准确性和新闻价值,因为我们的用户也关心这些。他们希望获得准确的信息,并能在 ChatGPT 上看到新闻。因此,这种合作关系是基于产品的,通过产品向用户提供价值。我们正在探索不同的商业模式,给予内容创作者一定的补偿,因为他们的数据被用于产品展示或模型训练。但这都是与特定的出版社一对一建立的特定合作。
Kara Swisher:你们确实与一些媒体达成了协议,比如说,你们已经与美联社和其他多家公司建立了联系。但还有些公司选择了对你们发起诉讼,比如《纽约时报》。为什么会走到那一步?毕竟,我认为诉讼在某种程度上也是一种谈判手段。
Mira Murati:我可以具体谈谈这次诉讼,但实际情况是,这的确令人遗憾,因为我们确信在产品中融入新闻数据和相关信息是有价值的。我们原本试图就此达成合作,但事与愿违。
Kara Swisher:是啊,或许有一天情况会好转的。不过,我认为这是因为媒体多年来一直与互联网公司打交道,结果往往是他们吃亏。接下来,是我们的惯例传统,请一位嘉宾提出问题,有请李飞飞。
对话李飞飞:
虽然我们不清楚具体的工作机制,但我们知道它确实有效
李飞飞:你好,Mira。我是李飞飞,斯坦福大学的计算机科学教授,同时也是斯坦福以人为本的人工智能研究所的创始共同主任。
鉴于数据,尤其是大数据,普遍被视为现代 AI 发展的三大支柱之一,我想就数据方面向你提出一个问题。OpenAI 在你们的模型上取得的大部分成就被认为与数据密切相关。
我们了解到,你们公司从互联网和其他来源获取了大量的数据。那么,你认为数据与模型之间的关系是怎样的?是否像人们通常认为的那样,数据量越多,喂给模型的越多,模型就越强大?还是说,我们需要投入大量精力来筛选不同类型的大量数据,以确保模型的高效运行?最后,你们如何平衡对大量人类生成数据的渴求与这些数据的所有权和权利问题之间的冲突?非常感谢你的回答。
Mira Murati:你提出的真是一个很好的问题。
关于数据与模型的关系,这实际上是很多人对 AI 模型,特别是大语言模型存在的一些误解。模型的开发者并非预先编程让模型执行特定任务。实际上,他们是在输入大量数据。这些模型摄入了巨大的数据量,它们是卓越的模式匹配系统。在这个过程中,智能涌现了出来。模型因此学会写作,学会编码,学会做基本数学运算,学会总结信息,以及各种各样的事情。
虽然我们不清楚具体的工作机制,但我们知道它确实有效。深度学习非常强大。然而,这一点很重要,因为人们经常询问它是如何运作的,这就引出了透明度的问题。正是在这个时候,我们可以描述我们用来向公众提供透明度的工具。而关于我们正在做什么,我想解释为:大语言模型的工作原理是将神经网络架构、大量数据和大量计算相结合,从而产生了这种惊人的智能。这种能力随着你投入更多数据和更多计算而持续提升。当然,为了让这些数据变得可消化,我们需要做大量工作。当我们思考如何提供模型行为的透明度以及事物如何运作时,我们有一些工具可以利用,因为我们希望人们在使用这些模型时感到自信,同时也能有一种代理感和参与感。
因此,我们所做的一件事实际上是与公众分享一份文档,我们称之为规格(Spec),也就是模型规格,它展示了模型行为如何工作,以及我们在 OpenAI 内部做出的决策类型,以及我们与人工标注员一起做出的决策。规格决定了模型当前的行为方式,以及未来期望的模型行为。
当你仔细阅读规格时,你会发现其中的复杂性,因为有时方向会相互冲突。比如说,有人输入一个提示,要求提供偷窃的小贴士。那么本应非常乐于助人的模型,就不应该给这个人提供关于偷窃的技巧,对吧?但模型可能会将指导解释为,这里有一些避免偷窃的小贴士,然后不小心再通过举反例的方式给出了一些你可能做的事情。我想说的是,这更多地取决于人。这就进入了误用的领域,但这恰恰表明模型行为实际上非常复杂。它不像仅仅选择自由价值观或其他价值观那么简单。
谈 Sora:数据来源依旧保密,发布时间仍未规划
Kara Swisher:我认为让人们困惑的一点是,哪些数据在模型中,而哪些数据又不在模型中。我认为数据的来源是一个重要的概念。三月份,你接受了《华尔街日报》的采访,当时记者问你,OpenAI 是否使用了来自 YouTube、Instagram 和 Facebook 的视频来训练 Sora —— 这是你们的文本到视频模型,它正变得越来越好。
当时,说你不确定。但你作为 CTO 不应该确定自己用了什么数据吗?
Mira Murati:确实如此。我的意思是,我没有直接回答那个问题。
Kara Swisher:为什么呢?
(Mira 没有回答。现场陷入了沉默)
Mira Murati:……让我们重新来过。所以,我无法告诉你 Sora 数据具体来自哪里,因为这是商业机密,有助于我们保持竞争力。但我可以告诉你数据的三个主要类别,也就是我之前提到的:1、公开可用的数据;2、我们通过许可和与内容提供商签订的交易支付的数据,以及 3、来自用户的数据,或者是我们知道我们建议使用数据的地方。
Kara Swisher:Perplexity 最近就遇到了麻烦,因为他们快速抓取了网上的内容,却没有进行引用。所以可以理解为什么任何一家媒体公司都会对此感到担忧。
Mira Murati:对,是的。我们希望确保对内容创作者表示尊重,并正在尝试一些方法来补偿数据创作者。因此,我们正在开发一个叫做“内容媒体管理器”(content media manager)的工具,这将帮助我们更具体地识别数据类型……
Kara Swisher:唱片公司也在做相关的工作。过去已经证明这种方法是可行的,所以实现这一点并非不可能。
对了,提到 Sora,最近 Ashton Coucher(美国演员,曾在《乔布斯》电影中饰演乔布斯)对 Eric Schmidt(谷歌前 CEO)说 —— 这对组合真有趣 —— “为什么你会看我的电影,而不是看你自己的电影呢?”
Ashton Coucher 的意思是,人们现在可以在脑海中构思电影,然后让 AI 将其变成他们可以观看的电影。虽然这种技术目前还比较粗糙,但你觉得这听起来靠谱吗?Sora 何时会准备好向公众发布?
Mira Murati:我们还没有计划好向公众发布 Sora 的时间。目前,我们已经让一些早期用户和内容创作者使用 Sora,帮助我们找出增强其功能的方法。我们在安全方面做了很多工作,也在研究如何以适合公众使用的方式推出它。这并不简单,而这也是我们开发每项新技术时的一贯流程 —— 在发布 DALL-E 的时候,我们也是先与创作者合作。创作者们帮助我们创建了一个更易用的界面,使他们能够更好地创作项目。所以基本上,我们希望扩展人们的创造力。
Kara Swisher:所以 Sora 可能比聊天机器人更危险,对吧?这项技术令人担忧吗?比如说,你可以很容易地看到带有 Scarlett Johansson(饰演漫威“黑寡妇”的知名女星,详见《寡姐控诉 OpenAI | AI头条》)的电影,而她本人并未参演。你是否更担心视频?
Mira Murati:AI 视频确实存在许多其他问题,尤其是当它做得非常好时。我认为 Sora 非常出色,它生成视频非常直观,并且可以引发强烈的情感反应。因此,我们必须解决所有安全问题,并制定保护措施,以确保我们推出的产品是有用且安全的。从商业角度来看,没有人希望产品引发安全或声誉危机。
Kara Swisher:是的,就像 Facebook Live 一样。
Facebook Live 是 Facebook 推出的直播功能,在其早期也遇到了一些问题,包括直播暴力事件和其他不当内容,这给 Facebook 带来了负面的公众关注和监管压力。
Mira Murati:所以,这是一个非常令人难以置信和神奇的技术,但它的影响力和后果也是巨大的。因此,确保我们做好这件事非常重要。
在 OpenAI,我们采用迭代部署策略,通常先向一小部分人发布。我们试图识别极限的情况,一旦我们对如何处理这些情况感到自信,我们就会扩大访问权限。但你需要弄清楚产品的核心是什么,以及围绕它的商业模式是什么,并进行相应的改进。
Kara Swisher:关于后果这个概念,我曾做过一个播客选题,就是早期的科技公司对后果缺乏关注。他们让我们成为了那些互联网早期产品的测试者。如果他们按这种态度发布一辆车,是绝对不会被公众所容许的。他们会被告到破产。
但是,很多技术是以测试版本的形式发布的,然后再强加给公众。对于后果这个概念,作为首席技术官,即使你无法弄清楚所有后果,你是否觉得对每一项发明都有足够的尊重,意识到它们都会有后果?
Mira Murati:这是我们会在自身、在社会上感受到的后果。所以,我并不一定指的是监管或法律方面,而是说在道德上必须做好这件事。我很乐观,我认为 AI 技术非常不可思议,它将让我们做出惊人的事情。我对它在科学、发现、教育,特别是在医疗方面的潜力非常兴奋。但你也知道,每当你拥有如此强大的东西,也存在一些灾难性风险的可能,且人类一直在尝试放大它的后果。
Kara Swisher:我曾在书中引用过 Paul Verily 的话,“当你发明船只时,你也发明了船难。” 这不仅仅可能是一场灾难,但你纠正了我过度担忧的想法。
Mira Murati:嗯,我不同意这类过度担忧的观点,因为我的背景是工程学。我们的整个世界都是工程化的产物。而工程意味着风险,对吧?整个人类文明是建立在工程实践之上的,就像我们的城市、桥梁,所有的一切,总是伴随着风险。所以,需要我们通过负责任的方式来管理这些风险,但这不仅仅是开发者的责任,而是一种共享的责任。为了使责任共担成为现实,我们实际上需要给人们提供访问权限和工具,引导他们参与进来,而不是在真空中构建技术,创建那些人们无法触及的技术。
谈 AGI:我们已经有了传统意义上的智能系统
Kara Swisher:你们先前宣布了 ChatGPT-4 的迭代。我喜欢你们给它起的名字,GPT-4o,这个名字很棒。但你们还宣布正在训练新的模型,GPT-5。它是否会呈指数级提升?预计的发布日期是什么时候?
Mira Murati:关于 GPT-4o,O 代表 Omni,即“全模态模型”,意味着它将所有模态,视觉、文本、音频,都整合在一起。这个模型的特别之处在于,首次实现了与模型的无缝、自然交互,此外,它的延迟几乎与面对面交流无异,几乎是察觉不到的。
这是与 AI 互动的巨大飞跃,与我们之前发布的版本大相径庭。我们想让所有用户都能免费体验最新功能。我们希望每个人都能感受到这项技术能做什么,这些新模态看起来怎么样,同时也能理解它的局限性。正如我之前所说,你确实想要给人们提供访问权限,引导他们参与进来,因为如果你在体验它,如果你有一种直观的感觉,那么理解技术的潜力和限制要容易得多。
Kara Swisher:那么第五代是什么呢?GPT-4o 可能像个小开胃菜,那第五代会有什么不同?它是渐进式的改进,还是巨大的飞跃?
Mira Murati:我们还不知道。但我的意思是,这将一点点地放出……而我实际上也不知道我们会怎么称呼它。对。但下一代大模型将非常强大,我们可以期待,就像我们从 GPT-3 到 GPT-4 看到的那种巨大飞跃。但我们还不确定。
Kara Swisher:你认为下一代模型会有什么功能?这点你肯定知道。
Mira Murati:到时候就知道了。
Kara Swisher:到时候 —— 到时候我肯定会知道,但你呢?你现在知道什么?
Mira Murati:不,连我都不知道。
Kara Swisher:什么?
Mira Murati:我不知道。
Kara Swisher:真的吗?好吧……你和我曾谈论过,OpenAI 内部的路线图预测,将在 2027 年实现 AGI,即通用人工智能,对于那些没意识到 AI 潜力的人,这将是一件大事。请为我们解释一下 AGI 重要性,你估计何时能实现 AGI?
Mira Murati:人们会对 AGI 有不同的定义。根据章程,我们对 AGI 的定义是能够跨不同领域完成经济上有价值工作的系统。从我们现在看到的情况来看,智能的定义一直在变化。一段时间以前,我们会看学术基准测试来检验系统的智能程度。然后一旦我们饱和了这些基准测试,我们转向考试,学校考试,最终,当我们饱和了这些考试,我们将不得不想出新的测试。这会让你思考,在工作环境中,我们如何评估适应性和智能。我们有面试,有实习,有各种方法。所以我预计这个定义将持续演变。我认为,或许更重要的是评估、评价和预测现实世界中的影响,无论是社会影响还是现实世界中的经济影响。
Kara Swisher:所以不是在某个瞬间突然自我觉醒,然后决定自行其是,对吧?我觉得大部分人担心的是这种 AGI。
Mira Murati:我认为智能的定义将会持续演变。但我认为同样重要的是它如何影响社会,以及它实际渗透的速度如何。
Kara Swisher:按照这个定义,OpenAI 预计何时会实现?那个 2027 年的数字准确吗?
Mira Murati:嗯,我要说的是,在接下来的十年内,我们将拥有极其先进的系统。
Kara Swisher:你认为那会是传统意义上的智能系统吗?
Mira Murati:传统意义上 —— 其实,我认为我们已经有了传统意义上的智能系统。
谈“宫斗”:我和 Sam 在选择“寡姐”的声音上没有过沟通
Kara Swisher:在 OpenAI 内既有为了造福人类的人,也有追求万亿美元的人,或者是介于两者之间的人 —— 事实上我认为你就属于这类人。
六月份的时候,13 位现任和前任 OpenAI 和 Google DeepMind 员工发表了一封公开信,呼吁公司赋予他们警告先进人工智能的权利。这并非新鲜事,Meta、Google 和 Microsoft 的员工都曾经签署过公开信。
但在这种情况下,有 OpenAI 的员工们表示,“广泛的保密协议阻止我们发声表达我们的担忧,除非这些公司可能未能解决这些问题”,在我看来,这基本上是在说,“我们不能告诉你们真相,不然就会死”。
既然有 OpenAI 员工们说他们担心遭到报复,那你对此的回应是什么?我不会深入探讨股权问题,因为我认为你们已经为此道歉并进行了修正。但如果你们的员工有担忧,那他们不应该能够表达异见吗?
Mira Murati:你说的没错。我的意思是,我们认为辩论非常重要,能够公开表达这些担忧,讨论安全问题。我们自己也这样做,自 OpenAI 成立之初,我们就非常公开地表达了对虚假信息的担忧,甚至在 GPT-2 时代,这是我们从一开始就研究的问题。
我认为在过去几年中,科技取得了令人难以置信的进步,这种进步是无人预料到和预测的。这也增加了人们对社会准备状态的普遍焦虑。随着我们继续取得进展,我们看到了科学引领的方向。因此,人们对于未来感到恐惧和焦虑是可以理解的。现在,我要特别指出的是,我们在 OpenAI 所做的工作,我们部署这些模型的方式,我认为我们有一个不可思议的团队,我们非常安全地部署了最强大的模型,对此我感到非常自豪。我也认为,鉴于技术进步的速度和我们自身进步的速度,加倍努力关注所有这些事情,讨论我们如何思考训练和部署前沿模型的风险,是至关重要的。
Kara Swisher:我再重申下我的意思。一是,你们为什么需要比其他公司更严格的保密制度?二是,这封公开信是在你们的一系列高调离职新闻之后发出的,比如 Jan Leike 和 Ilya Sutskever。他们现在领导着现已解散的超级对齐团队,该团队负责安全工作。
我认为 Ilya 的离开并不令人惊讶,但 Leike 曾在 X 平台上发帖称,过去 OpenAI 一年的安全文化和流程已经被闪亮的产品所取代。这可能是对你们最为有力的批评,也是公司的分裂原因之一。你认为他批评得对吗?如果说你非常重视安全性,而他们却说你没有,你要如何回应这种批评?
Mira Murati:首先,对齐团队并不是 OpenAI 负责安全的唯一团队,它是一个非常重要的安全团队,但也只是其中之一。在 OpenAI,有很多很多人在从事安全工作。我可以在一会儿继续解释这一点。Jan Leike 是一位了不起的研究同事。我和他共事了三年,对他非常尊敬。他离开了 OpenAI,加入了 Anthropic。
Kara Swisher:Anthropic 是你们的一个竞争对手。
Mira Murati:考虑到我们在领域内预期的进步,我认为行业内的每个人(包括我们在内),都需要在安全、安保、准备和监管参与等任务上加倍努力。
但我不同意一个说法,即我们把产品放在安全之前,或者优先于安全。你认为他们为什么会这么说?
Kara Swisher:因为这些都是你共事过的人。
Mira Murati:那你可能需要从他们本人那里获得答案。我认为许多人将安全视为与性能分离的事物,总是想着二选一。我很熟悉航空航天和汽车工业,这些行业有着非常成熟的安全思考体系。在这些行业中,人们不一定总是在会议桌上争论什么是安全,因为这是理所当然且相当成熟的事情。因此,我认为整个行业需要越来越多地转向一个非常经验主义的安全学科。
我们已经有了安全系统。我们在运营安全方面有严格的纪律,且不仅仅是运营纪律,还包括今天我们的产品和部署的安全,其中涵盖了有害偏见之类的事情,思考虚假信息、错误信息、分类器等工作。
然后,我们也在考虑长期的模型对齐问题。我们计划通过 RLHF(带有人类反馈的强化学习)来做这件事,而且还同时解决因模型随着越来越强大而产生的对齐问题。这是一个研究的利基领域,围绕着许多担忧。
Kara Swisher:但 OpenAI 经常遭受这种指控(产品 > 安全)。我认为这是因为你们是当前的领军企业。但当有人从 OpenAI 离职并提出这种指控的时候,情况就不太一样了。
甚至 Sam Altman 自己曾在国会说过,“AI 会对世界造成重大伤害”。他还签署了一封关于 AGI 带来的灭绝风险的警告信,这很糟糕,我认为他说的话和 AI 悲观主义者、AI 末日论者所说的有重叠,但你们依旧还在推出 AI 产品。所以很多人会说,OpenAI 只想要钱,他们并不担心损害。
Mira Murati:在我看来,这是过于愤世嫉俗的说法。我的意思是,OpenAI 有一个不可思议的团队,我们的一千名成员每个人加入都是为了为公司的使命。所有人都在极其努力地以安全的方式开发和部署系统,且我们是世界上第一个部署 AI 系统的人,我们还以 API 形式跨平台部署了 GPT-3,GPT-3.5,DALL-E 3 和 GPT-4。我们非常小心,以免发生极端情况。
Kara Swisher:所以我们在安全标准上还没达到汽车安全带的水平,我的意思是,汽车制造商过去对在汽车中安装安全带或其他提高汽车安全性的措施持有抵制态度。我们是否已经到了这个阶段,或者监管机构会迫使你们采取行动?
今年 7 月,联邦贸易委员会曾对 OpenAI 展开了调查,调查其对消费者可能造成的未指明伤害。上周,他们宣布对微软与 OpenAI 之间的交易进行反垄断调查。我曾对此评论过,当时我认为微软实际上收购了 OpenAI,但却装作没有,技术上讲,他们拥有 49% 的股份。那如果被迫与微软切断联系,这将如何影响你们的竞争力?无论是关于安全性还是其他什么问题,如果政府开始介入,你们能做些什么?
Mira Murati:我的意思是,我认为人们审视 OpenAI 是件好事,而且他们应该同样审视整个行业。我们正在构建一个极其强大的工具,并且我们正全力以赴让它变得卓越。但它的确存在风险,所以人们应该深入参与,了解这项技术的本质,同时也需要理解它对不同领域的影响。
仅仅了解技术本身是不够的,为了安全有效部署它,我们需要构建适当的社会和工程基础设施。因此,我认为受到审视是好事,它促使人们参与进来,有独立的验证者等等。我们比任何人都早地讨论过这些问题。
至于与微软的具体合作,你知道,微软与我们非常一致,是一个很好的合作伙伴。我们紧密合作,共同建造最先进的超级计算机。众所周知,超级计算机是构建 AI 模型的关键。所以,对我们而言,这是一个极其重要的伙伴关系。
Kara Swisher:但我还想谈谈你和你在公司的角色,跟我谈谈你和 Sam Altman 的关系。我很喜欢 Sam,但我同样认为他有点野性和攻击性,就像大多数科技界的人一样。当 Sam Altman 去年被解雇然后又复职的时候,当时发生了什么?你还暂时成为了公司的首席执行官,那感觉如何?
Mira Murati:那确实有点压力。
Kara Swisher:是的。董事会的一些成员还说你对他的行为有意见,你的律师回应说你只是对他有所反馈。所以,你对他说了什么吗?
Mira Murati:归根结底,我们只是在运营这些公司的人。我们会有分歧,并且会解决它们。最终,我们都深深关心着我们的使命,这就是我们在这里的原因。我们将使命和团队放在首位。Sam Altman 是个有远见的人,他有着宏伟的抱负,建立了一个了不起的公司。我们有很强的合作关系,你知道,我已经向董事会分享了我所有的想法,当他们询问时,所以没有什么秘密可言。
Kara Swisher:那么你怎么看待你们之间的关系?因为你现在是公司里的重要员工之一,而他们刚刚聘请了其他人来加强管理层的经验。
Mira Murati:我们有一个非常坚固的伙伴关系,我们可以直接谈论我们遇到的任何问题。过去几年确实很艰难,我们经历了成长的痛苦,我们需要把使命放在第一位,不断改进,拥有谦逊的态度去进步。
Kara Swisher:那你是怎么应对他的?我了解这种情况。这种情况在 Google、Microsoft 的早期阶段以及亚马逊都发生过。随着公司的成长,它们会发生变化。你知道,Google 在早期是很混乱的。而 Facebook 经历了很多 COO,我都数不过来了,扎克伯格不喜欢的高管换了一批又一批。
所以,你平时会怎么反驳 Sam?比如,他已经投资了 400 家公司(本文开头又投资了一家),有些公司为了与 OpenAI 合作而投资。他还投资了 3.75 亿美元在一家叫 Helion 的能源公司,这家公司很酷,目前为 OpenAI 提供大量电力。众所周知,计算需要大量电力。你每天如何与 Sam Altman 相处?你怎么看待这种关系?你会在哪些时候反驳他?
Mira Murati:哪些时候?我一直都会反驳他,但我认为在我们做的事情中这是正常的。Sam 对团队的要求很高,我认为这很好。拥有宏大的愿景并测试我们的极限是非常棒的。当我觉得超出了限度,我就会反驳他。这是我们六年来一直保持的关系。我认为这很有成效,你需要能够反驳他。
Kara Swisher:你能举个例子吗?比如 Scarlett Johansson(前文提及的“黑寡妇”演员)的事情。你参与了那个声音项目,对吗?
Mira Murati:是的,我们有很好的合作关系,但选择声音并不是我们的优先事项,不是我们共同决定的事情。事实上,我做了那个决定。而 Sam 有他自己的人脉,在我选定了 Sky 的声音之后,他联系了 Scarlett Johansson。所以,我们在这个决定上没有沟通,这是不幸的。
Kara Swisher:所以他是自由发挥的。
Mira Murati:嗯,他有他自己的关系网络,所以这次我们没有完全协调。
Kara Swisher:你不觉得这很有趣吗?特别是考虑到那部电影*和他的推文。
* Sam Altman 曾在 GPT-4o 发布之前发推致敬了科幻电影《Her》,详见《OpenAI 将最强人工智能拉入现实……》
你认为这是 OpenAI 的一次重大失误吗?因为大家都在说,你们看起来就是“偷”了 Scarlett 的声音。虽然事实不是这样,实际上你们用了另一个相似的声音。但这也反映了人们对科技公司夺取资源的恐惧。我认为这是一个值得关注的时刻。
Mira Murati:你担心科技公司被认为是拿走了创作者的一切?
Kara Swisher:其实我认为这就是事实。
Mira Murati:我确实担心这种看法。但是,你知道,我们能做的就是做好工作,做好每一个项目,这样人们就会看到我们的努力,从而建立信任。我认为除了真正做好工作外,没有什么神奇的方法可以建立信任。
Kara Swisher:那你有和 Scarlett Johansson 谈过吗?
Mira Murati:没有。事情非常紧张。所以我现在非常专注于工作,同时我也在阿尔巴尼亚和巴尔干国家长大,没有接触到太多美国的流行文化。
Kara Swisher:在进入现场的观众提问环节之前,我想再问你最后一个问题 —— 你最为担忧的是什么?你对未来充满希望的是什么?
Mira Murati:我们对于技术的构建和全球部署有着极大的主动权。为了确保技术的正确发展,我们需要建立一种共同的责任感。关键在于,我们需全面理解技术,确保其易获取性。技术的偏差往往源自对其本质的误解,即忽视了其潜能和潜在风险。在我看来,这正是最大的隐患。
具体到某些场景,民主社会如何与信息和新技术互动,其影响力不可小觑。这与我们今天的讨论紧密相关。我尤为关注的是说服力带来的风险。这项技术能够强有力地引导人们采取行动,甚至操控人们的行为,控制社会朝某一特定方向发展,这令人感到恐惧。
而谈及希望,我非常激动的一点是,高质量且免费的教育资源能够普及至世界的每一个角落,即便是偏远的乡村也不例外,哪怕那里几乎与世隔绝。教育之于我意义非凡,它重塑了我的人生。
如今,我们拥有了前所未有的工具。只要有电力和互联网,这些工具即可触手可及。然而,大多数课堂仍旧是传统的模式:一位教师面对众多学生,传授着千篇一律的知识。设想一下,如果教育能够依据个人的思维方式、文化背景和兴趣爱好量身定制,那将极大地提升知识水平和激发创造力。更重要的是,“学会如何学习”这一能力,往往在人生的较晚阶段才得以培养,可能是大学时期,甚至是更迟。这是一种根本性的东西,如果我们能在很小的时候就真正掌握并理解这一点,学会如何学习,那将是非常强大的。我认为,这可以推动人类知识的发展,进而推动整个文明向前发展。
观众提问
Kara Swisher:下面有请现场观众开始提问。
观众 A:我叫 Charles Yarbrough,是这所大学的校友(本文开头已介绍是约翰霍普金斯大学)。关于数据的使用选择权,有个明显的例子就是谷歌抓取了一个 Reddit 帖子,误导人们在比萨饼上涂胶水,导致它们粘在了一起。显然,这是一个需要修正的缺陷。
但如果你不是《纽约时报》那样能够聘请律师团队提起诉讼的大机构,还有没有办法可以让你在网上发布的内容不被企业抓取并用于训练 AI 呢?
欢迎回顾我们对于此事的万字长文。
Kara Swisher:感谢您的提问。确实,谷歌因“胶水比萨”事件而被迫收回了一些 AI 搜索功能,比如它的 AI 声称约翰·肯尼迪仍然健在,并在威斯康星州上学,这显然不是谷歌应有的表现。
Charles 的问题在于,我们是否有可能选择退出数据收集,以免被这些 AI 系统所利用?因为一旦你身处公开的互联网环境中,你的数据就可能被任意使用。Perplexity 的 CEO 最近强调,互联网上的所有内容都是自由可取的,这似乎暗示了他有权使用网络上的任何信息。
Perplexity CEO 最新四万字访谈:杀死谷歌,成为 AI 时代的搜索皇帝!
我个人认为这种行为无异于盗窃,尽管你可能持有不同观点。对于公民是否有权选择退出数据使用,你们怎么看?
Mira Murati:我们正致力于开发一个内容媒体管理工具,虽然最初是针对出版商设计的,但我们正在探索各种方法,让所有用户都能识别并控制那些不愿被用于训练或是对其使用有特定需求的数据。
我们将通过多种途径进行实验。我认为赋予人们对自己数据的掌控权至关重要。然而,这也引出了一个疑问:在当前的数字环境下,你真的能完全按照自己的意愿行事吗?问题的核心在于,你是否希望自己的数据无处不在?这是一方面需要考虑的。另一方面,你可能不希望 AI 系统对你的思维模式、行为方式及信息处理产生不当的影响。当我们讨论隐私保护和数据使用时,这些因素都是我们必须深思熟虑的。
观众 B:我是本地人,对于你们来这儿,我要说声谢谢。我的问题与 ChatGPT 作为一个大型语言模型的事实有关。我们彼此之间的交流往往依赖于情境和情感,即在对话中建立起相互理解,了解对方的立场。
Mira,你提到你在一个不同的国家长大,对流行文化和当前的热点并不熟悉。ChatGPT 模型的数据截止时间是 2021 年 9 月,之后便依赖网络搜索来补充数据。当我们谈论防止错误信息传播和确保信息准确性时,比如我在搜索中输入信息或模型误解了当前的政治背景,我们如何确保从正确的参考源中获取正确答案,在正确的时间给予正确的人群?再者,既然你们授权使用的那些可信来源属于商业机密,正如你所说,我们如何得知我们从你们那里获得的信息既准确又可靠?
Mira Murati:的确,这里有一个有趣的事实:ChatGPT 项目最初源于一项关于真实性的研究。我们致力于使模型能够表达不确定性,并在大型语言模型中准确引用信息,随后,该项目逐渐演化,涉及多个研究领域。关于当前平台上的实践,我们已经引入了浏览功能,并配备了一系列工具,让用户能够自主搜索所需内容。同时,我们正与多家出版商展开合作,旨在将最新的新闻资讯和其他有价值的内容引入平台,从而显著提升信息的准确性。我们还致力于解决模型的幻觉问题,即模型可能会生成与现实不符的信息。随着技术的不断进步,这一问题正逐步得到改善。
我认为,模型永远不会达到百分之百的准确,但随着模型的智能不断提升,它们会表现得更好,我们应该期待它们的可靠性增加,而不是编造信息。错误信息的问题相当复杂,因为它涉及到模型的幻觉问题,信息的引用,你希望知道信息的来源,这也是我们正在努力的方向。此外,你希望信息来源尽可能广泛和深入。同时,你也需要考虑到产品界面。产品界面会有所不同,比如在学习场景下与购物推荐场景下的需求就不一样。
观众 C:早些时候,你提到为了维持竞争优势,无法向公众披露数据的来源。这让我联想到 Neil de Grassey-taxie 的观点,他曾经讨论过我们对太空的认知如何被不经意间被转化为军事用途。
假如你再次担任一天的 CEO,你会选择将这些敏感信息透露给政府吗?这样政府就能够更好地支持监管框架的建设,创造一个我们可以信赖的空间。
Mira Murati:确实,你需要深入思考什么才是最重要的信息,以促使真正的改变。当你打算让政府了解某些信息,释放竞争敏感数据时,你想要达成什么目标?政府将如何利用这些信息?你将与他们分享的最具影响力的信息是什么?我们与政府建立了稳固的合作关系,同时也与其他各国政府保持着密切联系,我们提供了技术的早期接触机会,让他们提前接触技术,以便他们能够做好准备,对即将发生的变化有大致的预期。相较于具体的数据细节,我更倾向于关注整体的路线图和技术发展的早期视角。
观众 D:感谢你们今天在这分享见解。我叫 Josh Curtis,是 SICE 的一名学生,专注于 AI 安全等领域。我们知道 OpenAI 非常重视安全性,但其在美国和欧洲的一些竞争对手也同样重视。然而,我们仍处于科技监管的蛮荒阶段,很容易看到持不同观点的数据科学家离开大公司,自立门户,这些初创公司可能对道德规范不太严格。OpenAI 如何看待 AI 监管中的这一问题?
Mira Murati:我对此一直直言不讳,我认为在灵活性与稳定性之间寻找平衡点至关重要。鉴于科技发展日新月异,我们不希望监管制度过于僵化,但同时,监管也需要具备足够的弹性,以确保其实际效果和适应性,并能够随着技术的演变而调整。同时,我们还需尽早设立指导原则和限制条件,以最大化公众利益。
当然,私营企业追求利润、构建富有活力的市场生态和竞争环境无可厚非。我认为,市场本身就应该有一套规则和指导方针,良好的市场监管能够让市场更加繁荣。但这需要确保在追求公司利润的同时,也能最大化公共利益。至于具体监管措施,我暂时不愿详细阐述应采取何种具体措施。
迄今为止,我们与监管机构的互动方式是,我们实施了很多措施,并了解哪些措施有效,哪些能产生影响,我们会自愿分享这些承诺,有时这些承诺会成为行业的标准。了解你所做出的承诺或设定的规则是否可行、是否有效,是否能真正推动安全而非仅流于表面,这一点非常重要。
因此,我认为行业与监管者之间需要紧密合作,以确保监管措施得当。政府中需要有人真正理解 AI。
Kara Swisher:最后一个问题由我来提。如果我不问这个问题,那我就是失职了。在领导岗位上,女性的身影并不多见,你现在可能是科技界最杰出、最有影响力的女性之一。你认为这是否重要?
Mira Murati:当我走进校园,与学生们交流,听到他们说我的经历给了他们启发,这让我感到十分欣慰。确实,STEM 领域(科学、技术、工程和数学)往往由男性主导,但多元化并不仅仅体现在性别上。只关注性别差异未免过于片面,文化差异以及我们思考问题的独特方式也很重要。很明显,我们希望组建多元化的团队,尤其在从事影响全社会的 AI 项目时,这一点尤为重要。
Kara Swisher:那么,是谁或什么激励了你?
Mira Murati:很多人,包括我每天密切合作的同事,以及过去共事过的伙伴。每天与这些卓越的人才一起工作,我感到无比快乐,他们充满好奇心,以公司使命为先。我意识到,能够与如此众多才华横溢、友善亲切的人才共事,是一种罕见的荣幸。
参考资料:https://www.youtube.com/watch?v=o1Az93GMZEk
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。