Nature重磅:人类的这一能力,被AI掌握甚至超越了

人们善于学习新概念,并将它们与已有概念进行系统组合。例如,一旦一个孩子学会了如何跳跃,他们可以通过组合技能理解如何向后跳或绕锥形物跳两次。

这种将新老概念结合的能力被称为系统泛化(systematic generalization)。

而此前,Jerry Fodor 和 Zenon Pylyshyn 两位认知科学家曾主张,人工神经网络缺乏这种能力,因此不适合作为人类认知的可靠模型。

然而,一篇发表在 Nature 上的最新研究挑战了这个已经存在了 35 年的观点。

在该研究中,纽约大学心理学和数据科学助理教授 Brenden Lake 和西班牙加泰罗尼亚研究所(ICREA)教授 Marco Baroni 提出了一个具有类似人类系统泛化能力的神经网络。

具体而言,研究团队使用了一种“组合性元学习(MLC)”的方法来优化组织能力。通过并行比较人类与神经网络,他们发现,MLC 能掌握、有时甚至能超过类似人类的系统泛化能力。另外,MLC 还在多个系统化泛化基准测试中提高了机器学习系统的组合技能。

该方法可以让机器与人进行更自然的互动,甚至超过目前最好的 AI 系统。虽然基于大型语言模型(LLMs)的系统(如 ChatGPT)在许多情况下都能很好地进行对话,但在其他情况下却表现出明显的缺陷和不一致。

相关论文以“Human-like systematic generalization through a meta-learning neural network”为题,已发表在权威科学期刊 Nature 上。

研究团队表示,虽然元学习方法无法让该神经网络对训练之外的任务进行泛化,但他们的研究结果有助于今后开发出行为更像人类大脑的 AI。

在这项研究中,MLC 方法仅使用了普通的神经网络,并没有添加符号机制,也没有人工设计的内部表示或归纳偏见。

为了展示 MLC 的能力,研究人员在相同的系统性泛化测试中将人类和机器进行了并行评估。具体来说,他们使用了伪语言中的指令学习任务来检查人类和机器对结构化代数系统的学习能力,并通过少样本学习的方式来评估人类的系统性泛化能力。

图|MLC 架构(来源:该论文)

为探索人类的归纳偏见以及这些偏见如何促进或妨碍系统性泛化,研究人员通过研究高度模糊的语言来进行评估。在这些评估中,MLC 在实现(甚至超越)人类水平的系统性泛化方面表现出色。

此外,在纯粹的代数推理和模拟人类复杂组合行为的情况下,MLC 均表现出了一种与人类相似的错误模式,这显示出神经网络不仅具备出色的建模能力,也在模拟复杂的人类行为方面表现出了卓越的性能。

另外,研究团队还对两个广泛应用的基准测试进行了尝试,即 SCAN11 和 COGS16,着重关注MLC 在系统性词汇泛化方面的表现,特别是处理新单词和单词组合(而不仅仅是新的句子结构)。结果表明,除了在预测人类行为方面表现出色,MLC 在机器学习的系统性泛化基准测试中仅出现低于 1% 的错误率。

该研究展示了 MLC 如何通过其卓越的组合技能,使一个经过优化的标准神经网络能够模仿或甚至超越人类在系统性泛化方面的表现,从而在比较中表现出更强的系统性。相较于经过标准方式训练的神经网络,MLC 表现出更细致入微的行为。此外,MLC 还让神经网络能够处理其他已知挑战,如系统性地使用孤立的基元和运用互斥性来推断含义。

尽管 MLC 取得了一些成功,但它并不能解决所有挑战。例如,MLC 不能自动处理未经练习的泛化形式或在元学习分布之外的概念。此外,它无法泛化到它未经优化的归纳偏见中。

在机器学习的语境中,当泛化使新的情节相对于训练情节处于分布中时,元学习策略会成功,即使特定的测试项目相对于情节中的研究示例是超出分布的。然而,仅仅依靠元学习不会使标准网络能够泛化到相对于元学习期间呈现的情节而言又超出分布的情节。当前架构还缺乏发出新符号的机制,尽管可以通过附加的指针机制来引入通过研究示例引入的新符号。

在机器学习背景下,当新情境相对于训练情境属于相似分布时,元学习策略会成功。然而,仅仅依赖元学习并不能让标准神经网络实现训练情景之外的分布泛化。并且,目前的架构也缺乏一种生成新符号的机制。

最后,MLC 在自然语言的全部复杂性和其他模态上没有经过测试。因此,它是否能够在所有方面以及从实际的训练经验中实现类似于人类的系统性,仍有待确定。

然而,该研究有望帮助 MLC 解决更广泛的问题。举例来说,一个 LLMs 可以进行专门的元学习,通过交替进行标准训练(例如下一个单词的预测)和不断引入新词汇,从而优化其组合技能。

最后,作者在文中表示:“尽管将 MLC 应用于每个领域是一个长期的努力,但我们看到了在理解人类组合技能的起源以及使现代 AI 系统的行为更类似于人类方面的真正前景。”