“AI 教母”李飞飞最新对话：当空间智能技术成熟时，机器人革命即将开始

AI科技大本营 2024-09-14 12:31:02 阅读 76

李飞飞：“对开源风险最好的防御措施，就是领先于那些会利用这些工具造成危害的人。”

文 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

本文为 CSDN 编辑整理，未经授权禁止转载，违者必究。

近期，人称“AI 教母”的李飞飞有一段发言在社交媒体上爆火，她表示：“人类智能可以简要归纳为两大智能，「语言智能」和「空间智能」。虽然语言智能备受关注，但空间智能将对 AI 产生巨大影响。”

在底下的评论区，有人认为李飞飞其实就是在暗示马斯克的特斯拉，因为这家公司同时在「语言智能」（Groq 模型）和「空间智能」（自动驾驶）都有建树，不仅掌握着许多语言模型数据，还有自己生成的海量空间数据。

而这场对话的背景，是斯坦福大学 HAI（以人为本人工智能研究院）最近放出的一段视频。现场除了作为 HAI 联合创始人的李飞飞，还邀请了 HAI 的高级研究员兼副主任艾米·泽加特（Amy Zegart）、HAI 顾问委员会成员马里亚诺 - 弗洛伦蒂诺・奎利亚尔（Mariano-Florentino Cuéllar）和 HAI 副主任拉塞尔・瓦尔德（Russell Wald）。

四人围绕“人工智能对民主的影响”这一议题展开对话，探讨人工智能引入社会后产生的后果。比如，在数字平台上传播的虚假信息，现在因人工智能而进一步放大。期间，李飞飞也对开源模型 —— 在她认为，其实是开放模型，因为 Llama 3.1 并没有真正“开源” —— 作出了一些评论。此外，对于全世界都担心的算力危机和资源问题，她认为当前爆火的“小参数模型”其实正是解决之道。

以下为本次对话的整理，有删改。

Llama 没有真正的开源

主持人（罗赛尔）：很荣幸担任这场主题晚宴的主持人。在我看来，这就像是一位计算机科学家（李飞飞）、一位国际安全专家（艾米）、一位法学教授（马里亚诺）和一名运营着智库的人（罗赛尔自己），一起走进了一间酒吧，讨论一些问题。

马里亚诺：在我看来，这里根本不像个酒吧。

主持人：行吧，我们直接进入正题。最近几周，Meta AI 发布了迄今为止最大的开源模型 —— 请不要介意，我使用“开源”这个词时比较宽松 —— 总之，许多人担忧，这可能会无意中将最前沿的模型访问权限拱手让人。我们是否应对这些风险更加警惕？还是说对滥用的担忧被夸大了？

李飞飞：这就是你开始酒吧对话的方式吗？[观众大笑] 那让我重新科普一下这件事的背景吧。Meta AI 发布了 Llama 3.1 模型，其性能据称与最新的 GPT 模型不相上下，它确实是一个强大的模型。

然而，这是一个具有复杂性和细微差别的议题。我们一直都说，每项强大的技术都是一把双刃剑。罗赛尔刚刚说这个模型是“开源”的，但它并非完全开源。Llama 模型中有些部分是完全无法访问的，特别是训练数据。在这种模型落入不法之徒手中时，无论是个人、国家还是犯罪组织，都可能造成极大的危害。

但与此同时，过去几十年来，我们民主社会及其盟友所展现的力量在于创新能力、开放态度以及在彼此进步的基础上创造更多创新的能力。创新催生创新。因此，拥有这样的模型是极其宝贵的。在斯坦福大学校园里，开源模型是学术研究的命脉。它不仅自身是一个强大的工具，还可以将其益处扩展至医学、物理学、航空航天工程、生物学、材料科学乃至气候研究等领域。

开放模型带来的益处是非常重要的。尽管存在风险，但同时也带来了诸多好处。我们需要关注的是如何尽可能地减少这些风险，这需要政治学家和法律学者的指导。总体而言，如果我们必须做出选择，我认为在技术时代保持开放社会并增强自身能力仍然是极其重要的。我们应该力争成为人工智能及其他现代技术领域的领导者。事实上，最好的自我保护方式就是做到最好。

李飞飞

艾米：很高兴你会从计算机科学家的角度探讨这个问题。让我顺着飞飞提到的一个观点继续讲，那就是“细微差别”。我认为，人们常常陷入非此即彼的“二极管”选择，大家总觉得“开放有风险，封闭即安全”。但事实远比那复杂得多。开源模式和闭源模式都存在风险和机遇，因此我思考的是这些模型的风险可预见性如何？以及有哪些障碍影响了预见性？

在我看来，有三种障碍是我们需要考虑政府如何克服的。首先是技术层面。这是飞飞的专业领域。我们知道这些 AI 模型的行为方式很难理解。它们的失败往往不可解释，有时甚至无法修复。因此，这是可预见风险的技术挑战。

然后，还有商业激励方面的预见性挑战。我们都知道私营部门想要盈利，有一种自然的冲动是先发布产品再提出问题。那么，如何在不影响创新的前提下克制这种冲动呢？

但还有一个预见性的分析盲点问题，那就是智力挑战。每我们面对一个问题时，拥有多元化的视角会使你对未来的评估更加准确。当你有不同的视角时，你会更好地预见可能的替代未来。因此，不同的视角能提升预见风险的能力。

那么，这些 AI 公司在引入关于所面临风险的不同视角方面做得如何？他们是否有真正的红队来进行实战测试？比魔鬼代言人更好的是真正的反对者，一个真正反对你观点的人，而不是假装持有不同意见。我认为这是我们尚未足够重视的预见性问题的一部分。无论是在斯坦福校园还是在领先的科技公司中，我们是否擅长庆祝、鼓励，并奖励关于这些模型可能产生的风险的不同分析视角？我们越是这样做，就越能减轻这些风险。

艾米·泽加特

马里亚诺：今天的活动用了一张我的照片，那其实是我 11 岁的照片。因此，我可以得出结论 —— 它不是用 AI 深度伪造的，只是确实需要更新。我认为诚实很重要。就像我在努力完善我的照片一样。

从商业角度来看，Meta 的行为确实非常有趣。他们的 4050 亿参数模型在某种意义上是开放的，因为其权重是公开的。但作为一名法律专业人士，我不确定我会称之为开源模型。这是因为模型附带了许可证，明确规定了使用者的权限范围。若我们对这些模型用于制造虚假信息感到担忧，那么设定使用限制未必是负面的。

欺骗行为和欺诈活动应当受到制约。如果 Meta 决定发布模型的权重，并明示允许及禁止的用途，那就是合理的。但是，值得注意的是，在互联网的开源浪潮中，许多技术驱动的模式在许可条款上通常更为宽松，与 Meta 所设定的条件相比，有着较大的差异。这一现象再次凸显了安全考量的重要性。

此外，还可能涉及到经济因素。哪一家公司不会羡慕像 Meta 这样在模型训练上投入巨资的企业呢？探讨该项目的盈利模式是必然的。然而，这也关乎法律事务、商业策略以及安全保障。正如我们几个月前的聚会所示，当时全球顶尖专家齐聚一堂，讨论开放与封闭的主题。讨论结果表明，我们需要超越“开放”与“封闭”的二元对立。必须意识到，围绕 Meta 这家公司进行的前沿研究工作。即便他们不愿意公开模型的权重，仍有可能面临数据被盗的风险。

但深入技术领域的专家们认为，真正的威胁并不在于 Llama 3.1 所能达成的成就。更令人关注的是未来几代模型可能具备的功能。因此，我鼓励大家继续向我们以及彼此提问：世界将如何应对？当这些模型变得真正具有威胁时，各国政府将采取何种措施？在这些模型中，是否能够在生物武器或网络攻击方面取得实质性进展？届时，真正的问题在于，企业是否能以诚信的态度履行其在测试模型时所作的承诺。引入多元视角，并结合一些负责任且审慎的政府行动，不抑制创新，但也要为不得不采取行动的时刻做好准备。

艾米·泽加特马里亚诺 - 弗洛伦蒂诺・奎利亚尔

美国逐渐无法留住人才

主持人：我想问你们一个问题 —— 美国是否应该继续作为吸引人才的灯塔，或者说，是否还有能力继续呢？

马里亚诺：这是一个棘手的问题。

主持人：我知道，我故意这样设置的。

马里亚诺：我认为答案是显而易见的。我无法想象一个不依赖于来自全球各地顶尖人才的未来，例如像飞飞这样的人才，她在人工智能领域成为了领军人物。美国必须重视这一点。当然，具体实施细节，包括如何实现这一目标以及如何获得公众的支持，都是复杂的问题。

李飞飞：确实如此，我们刚刚在餐桌上其实讨论了这个话题。谈及人才和知识实力，我感到非常沮丧。我不明白为何美国不能简化留住和吸引人才的过程。作为斯坦福大学的一员，也曾任教于普林斯顿大学和伊利诺伊大学厄巴纳-香槟分校，我有幸接触到来自全球的年轻才俊，专注于计算机科学领域。然而，尽管依靠纳税人的资金或行业资助进行教育和培训，我们的许多学生依然在争取签证方面遇到困难，或感觉受到限制。

这种情况在今天尤为明显。若非世界其他地区缺乏吸引力，他们或许会选择留下，就如同我和我的同僚当年所做的那样。他们加入公司，描述这种情况为移民困境：需等待五到六年，持有 H-1B 签证，再申请 I-485 表以获得绿卡，才能感到自由发展职业生涯。

然而，现今知识能力的竞争更为激烈。我在餐桌上提到，目睹了许多斯坦福培养的计算机科学和 AI 学生，由于加拿大或欧洲部分地区提供了更多的资源和支持，他们不仅不愿意留在美国，甚至无法留下。

机器人革命即将开始

主持人：我想快速进入到下一个问题。飞飞，请你基于在空间智能及其对 AI 系统处理视觉数据能力方面的领先学术研究，谈谈这些进步的影响，尤其是你预见到的监控和隐私方面的风险是什么？

李飞飞：这是一个涵盖广泛的话题，我将尽量简短地回答。

首先，什么是空间智能？如果我们观察人类智能，这可以说是动物在漫长进化过程中智慧的体现。基本上，它可以归结为两大关键资源：语言作为思维的工具，具有象征性，帮助我们推理、编码知识并进行交流；另一个则是非语言领域，从我们出生起便形成的世界观。

我们通过非语言方式交流信息，进行非言语的创新，从艺术作品到建筑奇迹，再到科学发现。我们推理和感知的方式中蕴含着大量的智慧，理解并互动于三维空间，这就是我们在人工智能中所说的空间智能。

在我的研究中，特别是在大语言模型时代，我们对此有了深入的理解，专注于文本处理。然而，我一直强调，人工智能正展现出一个不同的方面，这在技术上非常令人兴奋，并将对商业产生重大影响，当然也会对地缘政治产生深远影响。这是因为其应用范围非常广泛。例如，这项技术可以帮助医生更好地服务患者，使老年人能够在家中借助空间智能辅助技术生活，评估他们的健康状况，并预警潜在的生命危险事件。此外，气候行动的基础在于理解广阔的地理区域及其环境变化，这一切都需要空间智能。

从地缘政治的角度来看，这项技术可以直接应用于武器系统，无论是在无人机上还是在其他设备中，它也是推动机器人智能发展的关键技术。每一个机器人都是一个移动的智能体，作为移动的媒介，就像人类和动物一样，我们利用空间智能在世界上移动并与之互动。

因此，当这项技术成熟时，机器人革命即将开始。

“小模型”其实就是算力危机的解决方法

主持人：请问三位如何看待人工智能产业中的规模经济，以及从全球力量角度来看这意味着什么？实际上，我考虑的是开发那些推动当今技术前沿的 AI 模型，其成本高达数十亿美元，这需要大量的人才、计算资源和数据。与此同时，这涉及到一种政治动态，从根本上害怕那些达到超大规模并对消费者群体和社会整体拥有巨大影响力的公司。我们如何平衡这两种力量，同时追求技术行业的民主化？

艾米：感谢提出这样一个简单的问题。让我稍微挑战一下这个前提。飞飞，你是专家，所以请你来纠正我。那就是，虽然在最前沿的研究领域，计算量、数据量及成本都非常高，但价格相对低廉的模型，那些依赖较少计算资源和数据的方法，已经十分接近前沿水平。它们越来越接近，可以实现非常强大的应用。因此，并不一定只有大者生存。由于技术的发展，可以看到并非最前沿的技术也能解决问题。我想听听你的想法，飞飞。

李飞飞：艾米，你对科技的理解让我印象深刻。我也持相同看法。我认为我们需要稍微谨慎一些。现在并非只有越来越大、越来越复杂的模型存在，像 Mistral 这样的 70 亿参数模型非常强大。许多公司都在采纳这种方法。我们还发现，那些更专注于特定领域或经过定制数据微调的小型模型对企业来说更具实用性。因此，我同意艾米的观点，即前提并不完全成立。

我想以一个小小的类比结束：一个微型的宇宙创造模型，即你头骨下功率不到 40 瓦的设备。与任何大型语言模型相比，这就是大脑运作所需的全部能量，真是令人惊讶。所以，技术一方面，有些公司正在推广规模越来越大的模型。但工业界也在付出大量努力，大小公司在追求专业化、小众化、更高效的模型。

马里亚诺：我会从另一个角度探讨。可以说，至少有两个我认为对人工智能政策具有重大意义的关键问题。但在商业和其他领域，存在一个共同的模式，即漏斗模型。顶级高端硬件的稀缺状况仍在持续。所以这是一个关于英伟达的大问题。但也要考虑前沿工作是否需要如此大规模的投资。这一点也触及了艾米的问题，即不仅仅是互补性，而是观念之间的替代。在某种意义上拥有正确的算法，以及将其转化为计算资源、用于能源等方面的纯资金。坦率地说，我认为我们并不完全知道答案。