Kaldi 之父：AI 最终会破坏它触及的一切

Kaldi 之父：AI 最终会破坏它触及的一切 | 新程序员

AI科技大本营 2024-08-14 10:01:01 阅读 86

【导读】本文作者站在 AI 整个历史长河的发展中看待当下 LLM 技术，他表示，AI 的发展是个漫长的过程，没有终点。模型更迭迅猛，未来充满未知，但唯一令人担忧的是，人们会越来越依赖那些集中化、复杂且脆弱的系统，这将带来巨大的安全隐患。一个黑客或一个简单的漏洞，可能会导致某个供应商的所有自动驾驶汽车全部停止，有可能直接导致整个国家甚至全球的交通瘫痪。

本文整理自 Kaldi 之父， IEEE Fellow，小米集团首席语音科学家 Daniel Povey 在 2024 全球软件研发技术大会中的演讲，同时收录于《新程序员 008》。《新程序员 008》聚焦于大模型对软件开发的全面支撑，囊括 Daniel Jackson 和 Daniel Povey 等研发专家的真知灼见与“AGI 技术 50 人”栏目的深度访谈内容，欢迎大家订阅。

作者 | Daniel Povey

责编 | 王启隆

出品丨《新程序员》编辑部

我想从宏观角度思考我们当前在 AI 领域的地位。如今像 ChatGPT 这样的聊天机器人，从产品角度来说确实很有意思。但打造 AI 依然是一个漫长的旅程，我们还有很长的路要走。到目前为止，我得到了以下两点认识：

首先，我们可以通过单纯的预测任务，比如预测下一个词（next-word prediction），让模型学习到很多关于世界的知识。

其次，当你扩大规模时（无论是扩大参数还是训练数据的规模），这些模型的性能会更好。

这些经验论都很好，但事实上我不认为它们特别出人意料，我也不认为这意味着我们解决了通用人工智能（AGI）。在过去，每当科幻作家试图想象一个超级智能 AI 时，他们通常会把我们现在所拥有的技术放大。比如在艾萨克·阿西莫夫的小说中，很多故事都出现了一台叫做 Multi-Path 的计算机，那是一台巨大的、有许多真空管的计算机，而他的灵感显然是基于 ENIAC 计算机（世界上第一台通用电子计算机）。重点在于，人们难以想象超出自己现有认知范围的事物，而我不认为 AGI 就是将现在的智能放大。

我们常认为人类有非常大的大脑，但实际上我们的大脑一直在变小 —— 如果和大约 5 万年前的克鲁马农人相比，他们的大脑实际上比我们的还大。狩猎采集时期的人类实际上需要记住比我们更多的东西，因为他们会吃很多不同种类的食物，必须熟悉周围的野生环境。也许在那个时候，他们不太依赖语言和向他人询问事情。

到了现代，我们的记忆力远不如古代人，所以才需要搜索技术。我们只知道如何找出答案，知道使用什么搜索词，知道在哪里查找。我认为也许在未来，AI 可能会更多地依赖于在 AI 系统之外查找信息。比如说，我们可能不会建立一个有万亿参数的 AI，而是建立一个有十亿参数的 AI，并给它搜索网络的能力，这么做反而更实际。

就像和孩子们进行长途车旅行的时候，他们经常会问：“我们到了吗？”或者“我们快到了吗？”我觉得在这个通往 AI 的旅程中，很多人在问，“我们到了吗？这就是通用人工智能了吗？”我认为总的来说，答案基本上都是否定的。

但同时，这也不是一个特别有意义的问题，因为它某种程度上取决于你如何定义通用人工智能。更有意义的问题应该是，“AI 能否系鞋带？”或者“AI 能否给老人或者盲人指路？”这些才是具体的应用问题。但“这是通用人工智能吗？”并不是一个真正可以回答的问题。

接下来，我会从多个角度分析，真正该思考的问题究竟是什么。

如何赋予 AI 意识？

动物以不同的方式表现出智能。菲利普·K·迪克的小说《仿生人会梦见电子羊吗？》探讨了 AI 是否能有意识。它有一个著名的电影改编版叫《银翼杀手》，是一部经典科幻片。现在我不能真正回答关于意识的问题，但关于 AI 是否会做梦这个论点实际上很有趣。实际上，所有的哺乳动物、鸟类和爬行动物都会做梦，即使章鱼也会做梦，我想科学家们并不完全理解为什么。有趣的是，这是一个趋同进化的例子，因为人类和章鱼的共同祖先肯定不会做梦，章鱼只有一个非常基础的大脑和神经系统。

所以出于某种原因，比方说为了产生智能行为，做梦是必要的。我认为这也许与某种生成算法有关，因为当我们做梦时，我们会体验随机的事情，它就像生成负样本这种学习算法一样：每当我们醒来时，往往都可以可以记住自己梦里的内容，但两小时后，就没有人记得梦里的事情了。梦中似乎有些东西不想进入我们的长期记忆，也许它只是我们长期记忆的一个负样本。

《银翼杀手》这部电影描绘的世界里还有另一个有趣的场景：世界上有一个非常强大的公司叫做泰勒公司，制造着所有的仿生人。AI 的兴起可能会导致大公司权力的大量集中。原因在于，如果制造 AI 的唯一方法是使用大量训练数据来训练庞大的模型，那么只有那些拥有足够资金购买大量 GPU 并能够获取大量训练数据的实体，才有可能制造出 AI。而且，在未来，我们的 AI 算法设计可能会变得极其复杂，以至于几乎没人能完全理解它们。这些算法将如同秘密配方一样，被严格保密在公司的内部。

在这种情况下，要复制公司的 AI 将非常困难。所以我们可能会看到这些非常强大的公司主导人工智能领域。这对普通人来说不一定是件好事。

再举个例子，在电影《雨人》中，有一个自闭症患者，由达斯汀·霍夫曼饰演。他不能在社会中正常生活，但他在某些方面非常聪明。他可以告诉你任何日期是星期几，还能非常准确地数东西。他的大脑在高效处理某些信息方面表现出色。

但他关注的内容与常人不同。他专注于记忆日期之类的事情。这种情况被称为学者症候群。现在我们当前的 AI 并不真的试图区分它们学习的内容。我们只是输入所有的训练数据，它就学习里面的所有东西，这有点像电影中的雨人。我的预测是，在未来，我们可能会拥有更加主动的学习算法。这些 AI 能够自行判断哪些信息是有趣的，哪些不是，或者我们可以为它们设定判断标准。这是因为潜在的训练数据量几乎是无限的。

几乎没人讨论数据选择这一话题，一方面是因为这是一个复杂的过程，另一方面则是因为涉及法律问题。大多数公司都不愿意透露他们使用的训练数据，因为一旦公开，可能会引发法律诉讼。

AI 最终会破坏它触及的一切

现在很多人对 AI 感到兴奋，他们认为 AI 会解决我们所有的问题。有些人甚至认为 AI 可以给我们带来世界和平或解决所有人类社会问题。我可不这么认为。

我认为 AI 最终会破坏它触及的一切。拿国际象棋来说吧，我们让 AI 解决了国际象棋问题，AI 可以在国际象棋中击败我们。但实际上这只是毁了国际象棋的乐趣。没有人再想下国际象棋了，因为他们知道 AI 可以轻易击败我们。

我父亲以前很喜欢下国际象棋，他现在还健在。有一次我给他买了一个电子国际象棋棋盘，就是那种可以和你对弈的智能棋盘。我以为那算是个不错的礼物。结果他和它对弈，即使在较低难度设置下，电脑也总是赢。

我这才意识到，其实他下棋并不是为了下棋本身。对他来说，下棋更像是一种社交活动。所以与电脑对弈反而失去了国际象棋的所有乐趣。我担心 AI 可能会对人类生活的许多方面造成这种负面影响。另外，如果我们仅仅将 AI 视为工具来使用，它并不会改变我们的本质。人类的动机极为复杂，根植于我们的大脑和基因之中。AI 不会改变这些本质特征。因此，认为 AI 可以带来健康、和平与安全的观点在我看来有些过于乐观，因为现在掌控技术的人将来也会掌控 AI。即便换了一批人，但他们终究还是人。

人们经常讨论的 AI 未来的另一个方面是全民基本收入（UBI）的概念。这种设想是：随着 AI 取代我们的许多工作，会导致许多人失去工作。然后政府会给每个人发放一份基本收入，让他们能够维持生活。人们不必工作，只需消费，或许就能过上幸福的生活。但在我看来，这并不是 AI 乌托邦，而更像是一个反乌托邦。如果人们变得无用，他们会意识到自己是多余的，这会摧毁他们生活中的所有意义。

人们从与他人的关系以及通过为他人服务获得意义。即使在一个无需工作的世界里，我们也可能需要创造某种形式的工作，或是找到一种方式让人们感觉自己是必要的，哪怕这只是表面上的。否则，人们会变得非常不快乐，这也可能给社会带来问题。正如俗话所说，“闲极生非”。如果没有事情可做，人们很可能就会惹麻烦。

在希腊神话中，有一个关于迈达斯国王的传说，他拥有点石成金的能力。这个故事不仅仅反映了中世纪人们对国王治愈疾病的信仰，还寓意着财富带来的诅咒。迈达斯国王能够通过触摸创造黄金，但这却成为了一个诅咒而非祝福，因为他所爱之人、他的食物乃至他的寝具都变成了冷冰冰的金属。我担心 AI 可能会对我们生活的许多方面产生类似的负面“点石成金”效应。

例如，电子邮件在 AI 广泛应用之前就已经被大量的垃圾邮件和广告邮件所淹没，而今我们的手机短信也开始遭受同样的命运。随着 AI 技术的发展，这种现象只会愈演愈烈。有时候，你可能会收到一条简单的问候信息，但却完全不知道这是来自缅甸的诈骗团伙还是 AI 发送的，他们的目的往往是诱骗你的钱财。

未来，当你接到电话时，可能根本无法分辨是在与真人对话还是与 AI 交流，因此你可能会选择直接挂断，即便对方是真正的人类。此外，互联网正被 AI 生成的内容所污染。当我在网上搜索技术信息时，我发现越来越多的搜索结果是由 AI 生成的。这些内容乍一看似乎很有道理，但很快就会暴露出明显的错误，让人意识到这并非出自人类之手。有时候，它们是对真实文章的复制粘贴，但会在文中插入垃圾链接。

总之，我担忧的是，当 AI 内容渗透到各个信息渠道时，并没有为这些渠道增添价值，反而让人们开始忽视并逐渐不信任这些渠道。阿根廷作家博尔赫斯曾经讲述过一个关于无限图书馆的故事，这个图书馆包含了所有可能的书籍——不仅仅是人类已经写过的，还包括所有可能的随机字符组合。其中有些书籍可能缺少单词或者含有错误。每本书都有多个副本，但某些副本可能已被篡改。虽然理论上讲，大型图书馆比小型图书馆更有用，但在无限图书馆中，每一本书都可能是被破坏的劣质副本，因此整个系统变得毫无价值。我对互联网的现状感到忧虑。

一旦我们有了生成式 AI 内容，它就会像这个无限图书馆一样。这对 AI 训练来说也是一个问题。如果我们仅仅在网络上所有的数据上进行训练，那么我们主要训练的就是由低质量的 AI 生成的数据。我认为这样很容易让AI陷入恶性循环，使其性能变得更差。

四大领域的 AI

我对 AI 在不同领域的影响有一些想法。

许多人担忧 AI 会使白领工作变得多余，因为 AI 能够生成文本——这是白领大部分时间在做的事。就我个人而言，我不认为这种情况会发生，原因有二：首先，在多数需要生成文本的工作场合下，这些职位的存在往往是因为法律法规的要求；其次，这类工作常常处于一种零和竞争状态，即便个人表现有所提升，但如果整个行业水平都在同步提高，那么整体生产力实际上并未发生变化。

以律师为例，在大多数国家，他们享有特殊的职业地位。即使一位律师通过 AI 的帮助提升了工作效率，但如果对手律师也同样利用 AI 提升了效率，那么这种提升对于案件的结果并无实质影响。在这种情况下，如果律师们只是生成更多的文件，那么这将成为新的行业标准，而文件的实际质量并没有得到提升。

广告业则是另一种典型的零和竞争案例。尽管这个行业较少受到法律法规的约束，但它本质上是一种零和游戏。因此，如果广告商借助 AI 变得更加高效，那么从整体上看，这种效率提升反而会降低广告的效果，因为消费者能够消费的产品总量是有限的。

类似的情况还出现在环境评估审批过程中。首先，这项工作本身就是基于法规要求而存在的；其次，它涉及一个竞争性的过程，因为对环境审查的要求既独特又多变。因此，生成大量文件可能成为新的标准做法。尽管可以利用AI来完成这些任务，但工作的本质并未改变。

相比之下，我认为 AI 在农业和采矿领域具有巨大的潜力。在这些领域中，使用机器有时非常具有挑战性，因为环境条件复杂且难以预测。尽管目前我们已经在使用各种机械，但仍需要人类的介入来指导它们的操作。然而，借助智能机器，我们可以更有效地解决某些问题，甚至有可能彻底改变农业的做法。例如，我们可能不再依赖化学农药，而是采用更加环保的方法来保护作物。或许我们还能利用 AI 改善动物的生活条件，让它们生活在更加适宜的环境中。

然而，想实现这一切需要的不是大型语言模型，而是那些能够直接与物理世界交互的 AI。

AI 已经在军事领域产生了深远的影响。观察当今的冲突，我们会发现各国正在积极研发武装无人机，并取得了显著成效。值得注意的是，并非所有无人机都配备了 AI，目前大多数仍由人类操控。但我相信 AI 驱动的无人机即将到来，特别是在面对信号干扰等挑战时，AI 能确保无人机即便失去与操作员的联系也能继续执行任务。

这种趋势可能会导致更多单方面的战争，因为一方可以通过部署 AI 无人机来打击目标，而无需派遣地面部队冒险。这可能导致战争持续时间延长，尤其是当一方遭受单方面打击后，民众的愤怒情绪可能会促使他们采取报复行动，甚至可能将战斗延伸至对方的平民区域。这种情景预示了一个令人不安的未来，人们不得不时刻提防着武装无人机的威胁，正如某些反乌托邦科幻作品所描绘的那样。

历史上，技术进步往往会导致攻防力量对比的变化。例如，城堡曾经是防御的象征，但随着火药的发明，攻城武器如大炮的出现使得进攻方占据了上风。随后，机关枪和战壕的出现又为防御方带来了优势，导致了第一次世界大战期间那种持久且难以突破的战场僵局。如今的技术发展似乎再次倾向于进攻方，特别是由于无人机的广泛应用。为了抵御这些低成本的武器，防御成本可能会非常高昂，以至于最终的战争遏制手段可能主要依赖于相互威慑。

关于 AI 对教育的影响，我出于几个不同的原因并不乐观。

首先，我们必须认识到教育并非单一的实体，它包含了许多参与者，每个参与者都有各自的目标和动机：家长希望孩子能够获得良好的社会地位，这意味着孩子在考试中的表现要优于同龄人，这种愿望未必与真正的学习相关，而可能更多地体现在应试技巧的培养上；学生则更倾向于追求乐趣和个人兴趣，这与学校的传统教育模式之间存在矛盾；教育机构则希望通过教育内容来塑造学生的价值观和身份认同，这既可以强化也可以淡化民族主义色彩，具体取决于课程的设计者。

学校还承担着一项重要职能，即为孩子们提供日间的活动安排，以便家长可以全心投入到工作中去。可以说，这是学校的一项关键职责。关键在于，许多教育实践实际上是一种零和游戏，技术进步并不能从根本上改变这一本质。

我认为让学生与 AI 建立有效的互动将是一项艰巨的任务，因为孩子们会从成年人那里获取关于何为真实、何为有趣的信息。孩子们会观察成人的行为举止，以了解哪些事情真正重要。缺乏这些微妙的人际互动，我认为孩子们很难完全投入到学习过程中。

多项研究显示，增加教育投入确实能在短期内提高学生的学业成绩，但这些成果往往不能持久。换句话说，即便在早期教育阶段提供了更高质量的教学，也无法从根本上改变一个人的成长轨迹。

当然，掌握基本的读写能力等基础技能是至关重要的。但除此之外，我认为 AI 对教育的长期影响可能不会像我们预期的那样显著。

从“繁华市集”向“水疗中心”转变

前文讨论了一些交流方式的变化趋势，比如电子邮件充斥着垃圾信息等问题。我认为，我们正见证着一种从开放式交流渠道向更加封闭式渠道的转变。电子邮件作为开放渠道的代表，任何人都可以向你发送信息，而你无法阻止这一点。短信也面临着类似的情况。即使在人工智能兴起之前，这些渠道就已经成为了垃圾信息泛滥的重灾区。

因此，人们很可能会转向微信这种由公司控制的渠道，从而将垃圾信息降到最低。同时，政府也会对这些平台施加控制，以符合当地的法规。全球范围内很难有一个统一的平台供所有人使用，因为不同国家和地区对于平台的要求各不相同。这迫使公司在不同市场中作出选择，以确保遵守当地法律。

在消费电子产品领域，我们可以将其分为两种极端类型：“水疗中心”（SPA）和“繁华市集”（Bazaar）。前者提供一种封闭、受控的环境，用户可以在这里享受到平静和安宁；后者则更为开放，任何人都可以联系你，让你置身于繁忙的信息流中。

所有消费设备都处于这两个极端之间的某个位置。苹果的产品倾向于“水疗中心”模式，对应用程序的发布有着严格控制。相比之下，微软的产品则更接近“繁华市集”。在“水疗中心”模式下，存在信任问题，用户可能不愿被绑定在一个可能变得过于封闭的生态系统中。这是人们对于苹果产品的主要顾虑之一。

我认为人工智能将进一步推动从“繁华市集”到“水疗中心”的转变，因为人们的注意力正承受着越来越多的外部干扰。长期处于这种状态可能对健康产生负面影响。因此，创造宁静时刻的能力将成为一个重要趋势。在过去没有电子设备的时代，人们过着更为轻松的生活，可以尽情享受不受打扰的时光。

我认为人工智能将替代许多低技能的工作，如运输和零售业。历史上，每当新技术取代人力劳动时，都会引发社会焦虑。例如，在英国工业革命时期，织袜机的发明引发了织工们的强烈抗议，甚至导致了机器的破坏。尽管这些抗议最终未能阻止技术的进步，但从长远看，社会总是能找到新的平衡点。

然而，这一次的情况可能有所不同。人工智能的通用性意味着它有可能取代各种工作。我对人工智能的主要担忧不是失业问题，而是系统的脆弱性。与人类驾驶员相比，如果软件出现问题，可能会导致大量自动驾驶汽车同时停驶，进而影响整个物流和社会运转。这就好比居住在可能发生海啸的地区，虽然大部分时间都是安全的，但偶尔会发生灾难性的事件。政府应该对此类风险进行监管，因为这些风险具有全局性影响。然而，没有哪家公司会因为这种担忧而放弃使用人工智能，因为这已成为一场无法回避的竞争。

总而言之，我们不应认为人工智能的问题已经解决，它还有很长的路要走。它的发展不会仅仅依靠更大的 Transformer 模型和更多的训练数据，那只是当前的趋势。目前，人们正在做的很多 AI 工作涉及微调大模型 —— 我并不是说微调有什么问题，也许微调是一种我们将来会继续使用的重要方法。但我觉得有点失望的是，每个人都只是在使用 Transformer，而不试图改变任何东西。我担心这种实验可能会导致特定设计的固化。

当然，我们会在近期看到许多具有图像和视频处理能力的多模态人工智能。这些多模态 AI 主要的优化目标仍将基于预测。例如对于视频，可以预测画面中的变化。由于数据实际上是近乎无限的，我们将不得不更加审慎地筛选数据，训练算法可能会对某些数据进行降权或舍弃。

对于人工智能是否会改善我们的生活，我保持着谨慎的态度。虽然人工智能可能会带来一系列挑战，但我们仍需保持开放的心态，我相信总会有一些积极的变化出现。