OpenAI o1大模型“猎杀时刻”:当AI开始“类思考”,低维争夺结束了
21世纪经济报道记者孔海丽 北京报道
预热一年之久,OpenAI代号为“草莓”的项目终于发布。
北京时间9月13日凌晨,OpenAI甩出了重大更新,传说中推理能力登峰造极的大语言模型——OpenAI o1系列模型亮相,复杂推理能力明显更进一步,极限推理能力甚至超越人类博士水平,代表了大语言模型在推理能力上的重大飞跃。
最惊人的是,OpenAI o1系列已经开始展现出“类思考”的能力——之所以说“类思考”,是因为目前为止,AI大模型尚未突破思考的本质。“自我推理”路径,更像是达到AGI之前的“花活儿”。
但,当下还未突破,并不意味着未来不可能。
从“什么都懂一点的‘人工智障’”,到“会自我纠正、选择合适路径”的人工智能,通向AGI的路径,在逐渐清晰。尤其,OpenAI当前放出的o1-preview和o1-mini,还只是o1系列的“前菜”,按照OpenAI的调性,更多突破或许已经发生,只待合适的时机一一发布。
正如李彦宏戳破大模型“跑分”假象,OpenAI 凭借o1系列,又一次把大模型的竞争拉高到了新的水准,低维度的参数、榜单之争,似乎不再有实际意义。
根据OpenAI官方消息,o1系列包括o1-preview和o1-mini,前者是“预览版本”,后者是经济高效的“小模型”,比preview便宜80%。
这些模型专门为处理更复杂的、多步骤的问题而开发,尤其是在科学、数学和编程领域,超越了之前的模型(如GPT-4)在推理深度和准确性方面的表现。
Sam Altman在X上贴出的对比图显示,o1解决数学、编程和博士级别科学题目上的能力,比GPT-4o高出数倍。
OpenAI甚至明确指出,“o1不是gpt-4o的继任者”,潜台词在于,o1开启了一段新的纪元。
整体来看,o1在美国数学奥林匹克预选赛中,排名美国前500名学生之列,并且在物理、生物学、化学基准上,首次超过了人类博士。
但在另一项创新之下,这些得分竟显得“平平无奇”了起来。
OpenAI o1引入了“思路链”。
类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时学会了磨练其思维链并改进策略。它学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时继续尝试不同的方法。
这种方法模拟了人类的认知过程,能够逐步完善每个步骤,甚至在一个问题中实现自我迭代,而结果就是,显著提高了模型的推理能力。
以一道阅读理解题为例,GPT-4o会直接给出结论,而OpenAI o1-preview有“显示思路链”选项,打开之后,o1-preview会将整个思考过程展示出来,逐步分析每个选项,并反复自问“这是一个很好的解释吗?能回答问题本身吗?”并在一遍又一遍地推敲之后,给出正确答案。
当然,想要节省时间的用户也可以选择“隐藏思路链”。
英伟达高级科学家Jim Fan对OpenAI o1高度赞扬,他认为,AlphaGo式的自我学习终于有可能在大模型中实现了。
“Strawberry很容易变成一个数据的飞轮。如果答案是正确的,整个搜索跟踪就成为一个小型的训练样本数据集,其中包含正面和负面的反馈。这反过来会改进未来版本GPT的推理核心,就像AlphaGo的价值网络——用来评估每个棋盘位置的质量——随着MCTS生成越来越精细的训练数据而改进一样。”
也就是说,未来大模型自我学习与思考的能力会像一个飞轮一样转起来,就像AlphaGo自己与自己对弈以提升棋艺一样。
一家跨国公司中国区人工智能大模型从业者告诉21世纪经济报道记者,从技术上来说,OpenAI o1“思路链”技术并不是最新的,但这种应用,让人隐约看到了推理层面的Scaling Law。
OpenAI官方也盖章,表示随着强化学习(训练时间计算)和思考时间(测试时间计算)的增加,OpenAI o1的性能会不断提高,扩展这种方法的限制与 LLM 预训练的限制有很大不同。他们将持续研究这里面隐含的新的可能性。
业界对于OpenAI o1所呈现出的“思考”能力,是有分歧的。
一种观点认为,OpenAI o1是人工智能大模型领域总结出Scaling Law之后的最重要进展。
所谓Scaling Law,是指随着参数量、数据量和计算量的增加,大模型的性能能够不断提高。
而OpenAI o1增加的,是推理过程和思考时间,同样明显提升了模型性能,这打破了大模型进入Scaling Law瓶颈期的担忧。
DCCI互联网数据中心创始人胡延平发表评论称,“草莓”真正开启的角度是让AI开始学会思考,而不只是训练和推理,举一反三,四顾找寻。长思考,慢思考,深度思考。到了草莓这一步,人们对大模型的理解就不能只停留在“对下一个词的猜测、对一个问题的一次性的问答”上了。
但另一种观点认为,前述说法过于夸张。
两位AI大模型从业者向21世纪经济报道记者表示,OpenAI o1的确在数学和推理能力方面有大幅度提升,但远远不到突破思考本质的阶段。
“OpenAI o1没有解决统计模型根本的缺陷,本质上还是通过大量学习得出正确的结论,很难理解背后的科学逻辑。”前述人士认为,目前,这种“思路链”更像是一种“假性思考”的状态,无需担心大模型已经有了意识。
“而且,人工智能突破思考本质对人类而言,会是非常危险的事情,短时间内还达不到。”他说。
连Sam Altman本人,都曾在今年3月份的一次采访中强调,AI目前更多的是一套基于数据和数学的系统,能够产生统计上可能的结果,而不是“生物”这种全新的生命形态。
在OpenAI那场震惊世界的宫斗风波中,有一种说法是,OpenAI前首席科学家Ilya Sutskever是因为看到了一些东西(可能是AGI),这让他内心不安,才说服董事会发起了高层人事“地震”。
Sam Altman也曾反复澄清过:“Ilya看到的不是AGI,没有人见到过AGI,我们还没有建造过AGI。”
在AGI到来之前,OpenAI亟待解决的现实问题其实是“赚钱”。
近期消息显示,OpenAI已就融资事宜与投资者交流,并考虑调整公司架构,以提高对金主的吸引力。与此同时,OpenAI 首席执行官萨姆•奥特曼正在与几家银行洽谈,以循环贷款的方式筹集50亿美元。
而在商业变现方面,此前曾传出消息,称“草莓”的订阅价格或飙升至2000美元/月,飙涨100倍。
不过,OpenAI o1-preview和o1-mini最终发布的价格并没有发生变化,只是限定了使用次数,o1-preview每周限制使用次数为30条消息。
OpenAI o1-mini则是一个较小的模型,在使用与o1相同的高计算强化学习 (RL) pipeline 进行训练后,o1-mini 在许多推理任务上实现了相媲美的性能,同时成本效率显著提高。但o1-mini 在MMLU等任务上的表现则不如GPT-4o,并且由于缺乏广泛的世界认知而在GPQA基准上落后于o1-preview。
不可否认的是,OpenAI每一次都引领了AI大模型的新潮流,且这种野心丝毫不见减弱。最新的发布中,OpenAI表示将在持续迭代的过程中发布OpenAI o1系列的改进版本,o1 及其继任者将为AI在科学、编码、数学和相关领域解锁许多新的用例。
换而言之,无论o1系列模型是否在历史意义上突破了“思考”本质,OpenAI都在商业层面把其他同类产品一次又一次地甩在了身后,AI大模型的“不进则退”,比其他领域都更悬殊。