AI 专家设最后考试,欲难住强大技术!

作者:杰弗里·达斯汀和凯蒂·保罗

(路透社) - 周一,一组技术专家发出全球呼吁,寻求向人工智能系统提出最棘手的问题,这些系统处理流行的基准测试愈发轻松,简直易如反掌。

这个被称为“人类的最后一次考试”的项目旨在确定专家级别的人工智能何时到来。据组织者介绍,其中包括一个名为人工智能安全中心(CAIS)的非营利组织和初创公司 Scale AI,该项目旨在即使在未来几年能力提升的情况下仍保持相关性。

就在几天前,ChatGPT 的制造商预览了一个新模型,称为 OpenAI o1,CAIS 执行董事兼埃隆·马斯克的 xAI 初创公司顾问丹·亨德里克斯(Dan Hendrycks)表示,该模型“突破了最受欢迎的推理基准。”

亨德里克斯在 2021 年与人合著了两篇论文,提出了针对人工智能系统的测试方法,这些测试现在被广泛使用,一篇考查它们在诸如美国历史等主题上的本科水平知识,另一篇探究模型借助竞赛级数学进行推理的能力。本科风格的测试在在线人工智能中心 Hugging Face 上的下载量超过了任何此类数据集。

在那些论文发表时,人工智能对于考试中的问题给出的答案几乎是随机的。“它们现在被超越了,”亨德里克斯告诉路透社。

例如,根据一个著名的能力排行榜,来自人工智能实验室 Anthropic 的 Claude 模型在 2023 年本科水平测试中的得分约为 77 分,一年后接近 89%。

正因如此,这些常见的基准就没那么有意义了。

根据斯坦福大学 4 月份的《人工智能指数报告》,人工智能在涉及计划制定和视觉模式识别难题等较少采用的测试中的得分似乎不佳。

例如,ARC 的组织者周五表示,OpenAI o1 在模式识别 ARC-AGI 测试的一个版本中得分约为 21%。

一些人工智能研究人员认为,像这样的结果表明规划和抽象推理是更好的智力衡量指标,不过亨德里克斯表示,ARC 的视觉方面使得它不太适合用于评估语言模型。

他说,“人类的最后一场考试”将需要抽象推理能力。

行业观察人士表示,常见基准测试的答案可能最终也被用于训练人工智能系统的数据之中。亨德里克斯称,在“人类的最后一次考试”中,有些问题将保持私密,以确保人工智能系统的答案不是来自记忆。

此次考试将包含至少 1000 个众包问题,这些问题的截止日期为 11 月 1 日,非专家难以回答。这些问题将接受同行评审,获胜的提交者将获得共同作者身份,并获得由 Scale AI 赞助的高达 5000 美元的奖金。

Scale 的首席执行官亚历山大·王(Alexandr Wang)表示:“我们迫切需要更难的测试来衡量专家级模型里人工智能的快速发展情况。”

有一项限制:组织者不希望出现有关武器的问题,有人称这对于人工智能研究而言太过危险。

(杰弗里·达斯汀于旧金山、凯蒂·保罗于纽约报道;克里斯蒂娜·芬奇编辑)