日均调用30亿次 MiniMax闫俊杰眼中的天花板与护城河

【亿邦原创】闫俊杰走路微缩着肩,语气非常温和,面对太多人时忍不住紧张。有员工觉得,外界之所以认为他们公司低调神秘,主要因为老板是i人,“光是在今天的活动上做个演讲,就紧张好久。”

有人形容闫俊杰是“扫地僧”,不显山不露水,但手上都是真功夫。他语速略快,气息轻而软,不会正襟危坐下判断,也没有铿锵有力的精英范儿,但行业里没人忽视闫俊杰的看法。

这得益于他先于行业作出MOE架构的判断。去年年中,行业共识还是Dense(稠密)模型时,闫俊杰已经判断出Dense瓶颈,拿出全公司80%的可用资源,耗时6个月,经历两次失败,研发MOE架构,并在今年1月推出国内第一个MOE(混合专家系统)架构大模型的abab6.5。

效果立竿见影,“我们用的MOE模型,取得了比Dense模型快3~5倍的速度,这也是为什么我们的模型每天能处理几十亿次交互,正是因为它足够快,响应时间足够低,才能得到广泛部署。”

产品调用量也一马当先。当下,MiniMax产品每天与全球用户发生30亿次交互,生成超过3万亿的文本Token、2000万张图、7万小时语音。

MiniMax身处一个巨头林立、全球竞速、前路未知的行业,既有激动人心的愿景指引,也有盲人摸象的无处着力,但闫俊杰的决策思路看起来简单清晰。他认为现阶段的主要任务还是模型层能力的提升。“过去两年发生了很多次,当模型能力有较大提升时,用户的使用场景和使用深度随之显著提升。反之当模型遭遇一些事故,当天用户对话量下降了40%。”

他也关注AI渗透率和使用时长的提升,他总结方法有三:持续降低模型的错误率;提供无限长的输入与输出;多模态。三种方法背后的核心还是技术进步,产品效果是技术进步的体现。

MiniMax做了好几次重大的底层技术变革,他只透露了Linear Attention(线性注意力)这个方向。MOE(混合专家系统)+Linear Attention(线性注意力)让MiniMax大模型的训练与反馈变得更快,在与GPT-4o同一代模型能力对比上,新一代模型处理10万token时,效率可提升2-3倍,长度越长,提升越明显。

对于大模型迭代放缓及外界唱衰的现状,他认为大模型发展的下一个转折点,不是发布了哪些新模型,而是哪一个模型可以把错误率降低到个位数。“如果Scaling law是对的,这个模型一定会出现,标志就是错误率降为个位数。好几家公司都具备这些能力,没道理训不出一个更好的模型。只是不知道什么原因,还没有人把它真正发布出来。”

从事技术研发是一件很奢侈的事,闫俊杰每次看账单都会很心疼。但从读书到工作、到创业的十几年间,他对技术的理解慢慢变得非常简单。他认为技术,特别是研发投入很大的技术,追求的不应该是10%的提升,而是数倍变化的提升。“如果一个技术只有10%的提升,那这个技术可能是众多工作中的一个,你不做也会有人开源出来。只有带来几倍变化,对满足用户需求很重要,外面又没有,这才值得我们投入,这样的东西才比较核心。”

会后,MiniMax创始人闫俊杰(花名IO)、MiniMax国际业务总经理盛静远、MiniMax技术总监韩景涛和包括亿邦动力在内的媒体交流对话,在对话中,他回答了对Character.AI被收购看法,展望了陪伴类AI的发展前景,给出了对行业趋势、路径及转折点的判断。对话内容经亿邦动力编辑整理:

1、“如果Scaling law是对的,没道理训不出一个更好的模型。”

提问:如何看待今年AI产品的大力投流?

闫俊杰:核心要看企业要什么——如果企业认为Query重要,就应该无限投流;如果认为Query量跟模型效果之间是对数关系,不是线性关系,价值就没那么大;如果认为商业化重要,只要产品能转正就应该无限投流;如果认为商业化,就应该考虑ROI。

这里面的核心不是投流本身,而是一家公司要的那个东西到底是什么。这个东西我觉得不同的公司有不同的判断。

提问:如何看待Character.AI被收购,以及陪伴类AI的发展前景?

闫俊杰:解释一件事,星野的底层设计其实不是陪伴用户聊天,而是一个内容社区。这里面有用户创建的角色,也有用户创建的故事、创建的世界观。另一些用户可以根据创造的世界观进行互动,很像小说这样的交互体验。所以我们的核心是内容社区,而不是陪人聊天,这是非常fundamental的不一样。

对用户来说,星野希望做到个性化,并且你在这个产品中得到的体验不完全来自模型,也来自另外一些用户的创作。

我们认为对内容社区的产品来说,用户得到的输出来自模型+数据,而这些数据主要是另外一些用户的创作,这是一个比较核心的区别。中国公司还是比较容易做好产品,并且在技术上的提升速度也更快。

关于Character.AI被收购,我认为这是一个比较好的结局,似乎每个人在里面都得到了好处。

提问:今年很多模型和AI产品都变成了期货,技术迭代速度放缓,什么时候什么条件下,大模型会度过瓶颈期,开始一下轮上升?

闫俊杰:我们对技术发展方向还是很坚定的。比如我们今天更新了视频模型,实际上两个月前我就知道今天可以发这个视频模型,虽然那时候还没有做出来,但根据那时的实验结果已经能够预测。语言模型也是一样的。

下一轮模型上升的一个核心标志,可能不是GPT4、GPT-4o这些产品,也不是Claude3、Claude3.5 sonnet,也不是MOE。真正重要的是,什么时间点有一个模型可以把错误率降低到个位数。现在所有模型的错误率都是两位数,错误率降低到个位数,这是一个本质变化。

为什么?这意味着首先模型有了一个数量级的提升,其次这让很多复杂任务从不可做变成可做。

复杂任务需要多步骤,多步骤之间是乘的关系。这就是为什么现在没有Agent可以应用,因为越乘正确率越低,没法支持非常灵活的Agent。

这不是因为Agent框架写得不够好,而是因为模型本身不够好,这是根本原因。

什么时间点会出来一个错误率能够降低10倍的模型?

首先现在显然起来没有的,至少没有公开的。但是我们可以看到,现在每家公司有了更多算力,Open AI和谷歌的算力比他们刚做出GPT4时多了不止4倍。算法也在进步,Open AI在同样水平的情况下,2023年只能做出GPT4,现在能做GPT-4o,性能差不多,速度快了可能10倍,这意味着算法进步了。

计算量多了10倍,算法也快了10倍,好几家公司都具备这些能力,没道理训不出来一个更好的模型。

我的判断是,如果Scaling law是对的话,这个模型一定会出现,标志就是错误率是个位数,只是不知道什么原因,还没有人把它真正发布出来。

美国公司怎么做的,我不完全知道,我能看到的事情是,基于两个假设:首先,大部分中国公司还是比美国公司落后。其次,我们能看到自己的进展。假定按照我们现在的技术进展,再加上国外的技术资源,肯定能做出更好的模型,这个我是可以来判断的。

2、“为了更高的用户覆盖度和使用深度,唯一的办法是多模态。”

提问:今年视频生成赛道非常激烈,MiniMax为什么要做视频生成,对你们整个布局来说有什么必要性?

闫俊杰:我们一直以来的目标就是要做动态输出,这也是为什么我们的声音模型做得很好,音乐模型也非常好。今天我们把视频模型也做得非常好。

为什么干这么一件事?因为我们有一个基本认知,这人类社会中,大模型的核心价值是做更好的信息处理,而大部分的信息体现在多模态的内容里,而不是文字上,文字知识里面最精华的那么一小部分。

为了能够有非常高的用户覆盖度和使用深度,唯一的办法是多模态,输出动态内容而不是只输出文字内容,这是一个非常核心的判断。

所以我们先做文字,又做声音,还做了图片,现在把视频也做出来。这个路线是一以贯之的,一定要能够做多模态。

提问:挑战和难点在哪儿?

闫俊杰:首先这件事本身挺难的,因为视频的复杂度比文本更高,context天然很长。比如一个视频是千万的输入和输出,天然就很难处理。

其次,视频和文本需要的基础设施不同。比如一个5秒的视频有几兆,但5秒看到的文字可能不到1K,这是几千倍的存储差距。这里面的挑战在于,之前基于文本建的这套底层基础设施,清洗数据、标注数据、处理数据的方法,对视频上都不太适用。这意味着基础设施也需要升级。

还有一个是耐心,做文字有很多开源的东西,做视频没有太多开源的东西,很多东西越来越需要重新来做,需要付出的耐心也更大。

提问:MiniMax怎么去解决技术迭代过程中遇到的数据问题。

闫俊杰:数据方面,中国还是有比较好的措施,上海这边就有一个千分之料的公司,他们有很多非常高质量的数据,可以开放给技术的公司使用,这些数据完全没有版权问题,对创业公司帮助非常大。

我们自己也会采购第三方数据。还有一点不知道该怎么判断,海外很多人质疑Open AI是不是使用了其他数据,这似乎是一个没有明确定义的模糊地带。对我们来说,我们会尽可能地用这种比较符合版权的数据。

3、“技术研发是很奢侈的一件事,每次看账单都会很心疼。”

提问:您演讲时说自己花了两年时间才意识到技术是最核心的要素,这中间经历了怎样的注意力漂移?

闫俊杰:我们一直都觉得技术重要,但觉得它重要,跟觉得它100%重要,中间其实需要一个过程。

做技术是一件非常奢侈的事,因为技术具有不可预测性,而且研发投入很大,看一眼我们每个月的账单,我还是会非常心疼。

当一个东西很奢侈的时候,很多时候你会想要不要走点捷径?比如说不做技术了,先把产品提升好怎么样。再比如一个东西要实验三次才能成功,第三次实验成功的时候,你又在想前面两次是不是可以不用做。

但我们的实践经验证明,走捷径就会被打脸。这个事也发生好多次了,至少在我这儿类似的错误都超过十次了。本来我们一开始一致认为技术重要度是70%,打脸一次,升到75%,再打脸一次,升到80%,就这么一个提升过程,直到现在。

当然这都是一些负反馈,也有正反馈的时候,当你真的把一些关键技术突破之后,非常显著地感受到用户和客户对你的认可。

不管正反馈还是负反馈来看,最终发现都是技术,我还是比较庆幸自己一直是一个做技术的人。

提问:您此前介绍将80%的算力和资源放到MOE上,未来的大模型研发还会保持这样的水准吗?

闫俊杰:从读书,到工作,到创业,我对技术的理解慢慢变得非常简单。技术这件事,特别是研发投入很大的技术,追求的不应该是10%的提升。如果一个技术的提升只有10%,那这个技术可能是众多工作中的一个,你不做也会有人开源出来。

一家像我们这样的创业公司,真正应该花钱做的研发是那种能带来几倍变化的技术,这种东西很多时候如果我们不做,外面也没有,对满足用户的需求又很重要,我们只能自己来做,这样的东西才比较核心。

不管我们现在还是再往后看,我们在什么样的技术方向上最愿意花钱,核心的判断是我们认为这个方向做出来能不能带来几倍的变化。如果能,不管多难都要做出来。如果不满足这个标准,不管多简单我们都不应该做。

提问:您此前比行业更早做出MOE方向的判断,这次决定Linear attention这个方向,这个决策是怎么做出来的?这次预判和实践对MiniMax发展来说有哪些意义?

闫俊杰:原因是我们发现,模型输入的长度很重要,韩总来说一下。

韩景涛:长度为什么重要,我们还是比较坚信Scaling law。

Scale可以理解为是一种多个维度的缩放,很多人会简单认为参数量越来越大是一种Scale。还有一个纬度,就是支持的长度也是可以Scale的。

原理上我们相信Scalling law不管是有点慢有点快,这几年肯定还是对的,并且能赶上预测的曲线。

Scale除了参数量、数据量、计算量以外,context lenght也是非常重要的一环,原理上我们相信这个一定得做好。

传统的Transformer相当于是一个N方复杂度的self attention计算,如果一定要是N方的话,永远不可能Scale得特别长,8K或者10ktoken的上文,大概就达到这一代硬件技术的瓶颈。我们想做得更大,不管是原理还是实际应用上,肯定要Scale更长。比如星野这样的聊天机器,人跟他聊天肯定不希望星野只能记住最近8000字的内容,这对用户体验的损伤很大。如果能Scale到8万字、80万字、800万字,肯定能做出更不一样的产品。

在Scale的实践中,我们产品摸索发现有一个长的记忆,长的context length非常重要,也非常实用。我们就开始探索,如果一直用之前的旧算法,ON方一会限制我们的Scale,那个时候我们会探索极端一点,能不能找一个ON的。因为ON Scale性天然很好,计算复杂度非常低,尤其是上文越长优势越明显,这样我们进行了一些调研,看了一下前沿的工作和我们自己做一些探索创新。

我们发现把Linear attention做好非常重要,而且我们也找到了这一个点,一开始遇到很多工程瓶颈,但是研究到现在,我们对Linear attention的驾驭到了一个可以用的状态。

闫俊杰:总结起来,核心还是快,不管是做MOE还是Linear attention,还是其他探索,本质上是让同样效果的模型变得更快,这是我们认为的本质。就像刚刚说的,快意味着同样的算力可以做得更好,这个是我们最底层地做研发的思路,除了Linear attention、MOE,可能还有一些其他有价值的事,我们也在探索。

亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。