☰

学会反思的国产大模型，真变强了？

真正能够像人类一样进行逻辑推理的大模型，距离我们还有多远？

随着OpenAI推出更侧重推理能力的o1大模型，推理大模型正成为行业新的竞争方向。本周一，月之暗面推出的Kimi探索版，成为国产推理大模型的最新代表。

让大模型学会推理的诀窍是什么？各家厂商都提到了一个关键词——反思。通过将复杂问题一步步拆分，并且对每一步的输出结果进行反思检验，是降低大模型幻觉的有效途径。而这样的思路，看上去与人类的逻辑推理确实有一定相似性。

不过经过实测，我们发现现有大模型的逻辑推理能力仍然难以让人满意，这背后可能仍然绕不开大模型底层原理的限制。

但有趣的是，为了提高推理能力，国产大模型在使用工具的路上越走越远，反而可能是当下最现实的大模型落地途径之一。

推理大模型，真的会做题吗？

上周五，月之暗面宣布推出Kimi探索版，并于本周一正式上线。

据官方介绍，Kimi探索版具备AI自主搜索能力，可以模拟人类的推理思考过程，多级分解复杂问题，执行深度搜索，并即时反思改进结果，提供更全面和准确的答案，帮助你更高效地完成分析调研等复杂任务。

那么实测来看，Kimi探索版实力究竟如何？

谈到推理能力，人们往往最先想到的是数学。很多测评都使用高等数学题目去测试大模型的推理能力，并且往往能够取得不错的效果。

不过从实用层面来看，大部分用户的需求并不是求解高数，而是解决日常生活中的应用题。

所以，我们打算让Kimi替最近上市的新车乐道L60算笔账。

蔚来换电体系下独特的BaaS电池租赁方案，让不少消费者在计算用车成本的时候也感到头疼，乐道L60发布会后，到底怎么买更划算引起了网友热烈讨论，不少网友甚至搬出了专业的会计知识。

我们问Kimi的问题是这样的：分析乐道L60车辆采用BaaS方案下的每年用车成本，BaaS方案和电池买断方案哪个更划算。

可以看到，Kimi正确理解了BaaS的含义，虽然没有意识到乐道是换电而不是充电，不过按充电成本算也没有太大出入，整个逻辑基本是清晰的。

问题在于，虽然一开始提到了购车价格，但是在总用车成本的计算上，Kimi却并没有加上购车成本的折旧，没达到我们想要的效果。

于是，我们要求Kimi把折旧成本考虑进去，结果是这样的：

在最后的结论里，Kimi对购车价格和折旧成本进行了重复计算，显然是错误的。而这个错误，恰恰说明Kimi对于成本和折旧的逻辑理解还存在不足。

作为对比，我们用ChatGPT-4o mini测试了相同的问题，发现4o mini可以正确理解包括折旧、BaaS在内的各项成本的逻辑，可是却没有正确获得车辆的价格。

也就是说，Kimi并没有表现出比GPT-4更好的逻辑能力，但是在中文信息检索能力上却更加优秀。事实上，后者也是Kimi真正的强项所在，后面我们会再次讨论这一点。

不过在此之前，我们还发现了一个相对小众的选手——学而思九章大模型，也相当值得关注。

提到学而思，大家都知道它是以教培起家，尤其擅长数学教学。而九章大模型也继承了学而思的特长，专攻教育领域，并且宣称有更好的数学能力。

当我们以上述问题测试九章大模型时，它的表现非常出色——不仅能正确理解车辆残值、成本均摊等逻辑概念，还具体获得了乐道BaaS“满四减一”优惠、实际电耗水平等信息，因此给出的答案更能解决问题。

但美中不足的是，它并没有给出车辆折旧的具体数字，导致最终没有输出一个明确的答案。

这究竟是一个缺点，还是优点？其实从逻辑来看，九章这么做的原因，应该是同样出于“具体问题具体分析”的理念，由于自己没办法确定相关车辆的具体折旧率，因此就直接说明自己的不确定，充分保证了答案的严谨性。

看上去，九章的确更像是一个严谨、可靠的数学模型。

AI可能还没有学会推理

强化大语言模型的推理能力，在技术上是怎么实现的？大家都提到了一个关键词——反思。

月之暗面方面指出：就像人一样，Kimi探索版可以借助反思能力，来提升和改进回答的质量。面对开放探索型问题，Kimi探索版发现第一次回答的信息存在缺失，会主动补充回答更多。面对数字相关的搜索问题，Kimi了解更多信息后如果发现了数据冲突，则会及时补充提供多方视角的信息供参考决策。

从上面的演示中可以看到，Kimi会把自己的思考过程展示出来，让用户明确看到自己进行了一次补充检索。

九章大模型负责人白锦峰进一步解释说，同大模型类似，人类在幼年时期同样缺乏逻辑能力，会产生幻觉。但随着人类的成长，会逐渐学会逻辑推理，让自己的观点在逻辑上自洽，并拿观点去跟已经存在的事实进行校验，从而消除幻觉。

白锦峰表示，目前大语言模型的第一性原理是Next Token Prediction，也就是通过预测下一个字符的方式给出答案，而这种预测是基于概率的，这决定了大模型一定会有出错的概率。

为了提升准确率，目前的推理大模型普遍应用了CoT（思维链）和Voting&Verifier两种算法，前者将复杂问题拆分为多个步骤，后者则对于每一步的结果进行反思，多做几次检验来找到一致性最高的答案。

这两种算法模仿了人类思维方式中的校验过程，但其实仍然是基于概率，而不是逻辑推理。白锦峰指出，为了真正保证结果的正确性，大模型还需要应用定律的技术，例如学会使用数学定律来解决问题。

但是在应用定律方面，大模型仍然存在根本性的难点。白锦峰举例说，像加法交换律（a+b=b+a）这样简单的定律，人类可以直接理解公式，但是大模型只能通过穷举大量的案例（1+2=2+1等）来悟到这个规律。

因此，对于当前的大模型技术能否真正实现推理能力，很多人并不乐观。美国著名AI科学家Yann LeCun近日就尖锐地表示，当下的模型“似乎在进行推理，但实际上它们只是在重复已经训练过的信息”，按照现有训练方式，无论多少GPU都不会让我们实现AGI。

苹果AI团队的最新研究也认为：大语言模型在相同问题的不同版本上表现出高性能差异、难度略微增加时性能大幅下降以及对无关信息的敏感性，表明其推理能力很脆弱。它可能更像是复杂的模式匹配，而不是真正的逻辑推理。

从大模型到Agent

尽管以AGI的标准来衡量，目前的推理大模型还远远不够完善，但是从实用层面，国产大模型正在这轮推理竞赛展现出了一个重要进化——调用工具。

例如，九章大模型在解决数学问题的时候，采用了一个看似原始却非常实用的办法——直接调用计算器。就像人类一样，学会使用工具，也是AI应当具备的能力。

Kimi调用的工具则是搜索引擎。Kimi探索版在回答问题时，最高能够搜索并精读500个网页，相较于此前版本提升了10倍。

而且我们在实测中发现，Kimi列出的参考页面普遍都来自较为权威的站点，内容质量也相对较高。在开放性的问题中，Kimi能够充分保证输出的客观和准确性，这才是探索版给我们印象最深刻的地方。

Kimi 探索版产品负责人表示，“如果 Kimi 搜不到的信息，那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为AI更擅长调用的工具，人只需要专注于提出好的问题，AI就可以结合模型本身的能力在庞大的互联网中自主海量搜索，不断反思迭代，更精准地找到所需答案。”

对于大部分普通用户来说，这话并不夸张。

从本质上讲，调用工具使得这些模型更接近于AI Agent的概念。尤其是对于Kimi探索版，相当于替用户完成了网页检索的任务，并且能够帮助用户去除搜索引擎中大量的低质量和营销内容，实用性极强。

如果说，当前的AI理论本身就限制了大模型难以实现真正的逻辑能力，那么在理论突破之前，如何最大化模型的实用性，让AI从Copilot向Agent尽可能地迈进，就是当下最重要的命题。

此外，从Kimi、九章的表现来看，国产大模型如今继续提升实用性的方式，并不一定是增加规模，或者提出什么独特的算法，而是通过专注于自己最擅长的垂直领域来提升准确率，并形成独特护城河。

白锦峰举例说，对于教育大模型来说，能答对问题和能教好学生之间，仍然存在区别。例如同样是除法，用除号还是用分号来表示，在教学中就是不一样的。对于小学生来说，因为还没有学过分数，所以用分号就是错误的回答。因此，学而思利用自己长期积累的教材和教师资源，能够做出更好的教育大模型。

专注垂直，也能够让成本更加可控。学而思方面人士向观察者网直言，大模型初期投入是不可避免的，目前也看不到直接的回报，但投入又是必须要做的，否则等到技术成熟再发力，早就失去了上牌桌的机会。

但是学而思并没有选择去自己研发基座大模型，而是基于开源大模型的基础，在百度云上进行千卡规模的训练，以可控的成本实现了不错的性能。

因此，国产推理大模型当下给我们的最大启示，或许仍然是实用为王。

学会反思的国产大模型，真变强了？

相关资讯