对话无问芯穹CEO:预计3~5年内盈利,端侧大模型芯片IP明年落地

智东西作者 ZeR0编辑 漠影

智东西9月3日报道,昨日,清华系AI Infra创企无问芯穹宣布完成近5亿元A轮融资,累计融资接近10亿元。融资新讯公布后,无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲与智东西等媒体进行深入交流。

据透露,无问芯穹今年已有一些规模化收入,主要来自销售算力,明年会进一步扩大市场份额。经其内部测算,无问芯穹预计将在3到5年内实现盈利。针对端侧大模型和芯片布局,其端侧大模型推理处理器LPU将以IP形式,与合作伙伴做联合的芯片发布,计划明年有一些落地尝试。

谈到IPO,王梦菲说,无问芯穹刚刚成立一年零四个月,所以还没有具体的IPO计划。无问芯穹是一个纯内资结构的公司,自成立起始终秉持着完成国家大战略的方向来努力构建能力,因此未来希望在境内IPO。

无问芯穹于2023年5月在上海成立,由清华大学电子工程系教授、系主任汪玉教授发起,汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。

该公司以“释放无穹算力,让AGI触手可及”为使命,致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

其业务以大模型能效优化工具包为核心,向下联动多家国产芯片公司,向上服务大模型算法企业(通过智算云服务、智算一体机等方式),协同算力、算法、生态,推动行业大模型的高效落地。

一、解决算力荒难题,要把算力服务标准化

夏立雪说,无问芯穹的初心是解决国内算力不足的问题,给市场增加了一些大家原本没有用好、或者没有想到可以用的算力资源,帮助合作伙伴节省算力资源占用情况,并提高新建AI基础设施的易用性和平台能力。

例如,无问芯穹已帮助一家互联网客户将一个大模型推理场景的算力成本降低90%。

据王梦菲分享,目前市场上是M种模型与N种芯片共存的生态,彼此适配会带来很多不便捷,要将算力变成像水电煤一样的标准资源,中间需要运营商的角色。

她解释道,无问芯穹自我介绍时之所以会选择“算力运营商”,而不是“AI Infra”,是因为其团队认为国内AI Infra往往被理解为单点优化工具或软件,但过往很多实践证明这类商业模式存在一些难题,客户真正想要的是一种已经优化完善、即插即用的算力服务。

因此,无问芯穹将工作定位为一步到位地满足客户需求,减少他们对技术细节差异的理解负担。

“我们希望的是致力于把算力做到足够的标准化,降低客户使用算力的难度和门槛。这也是我们跟市面上其他AI Infra的一些初创公司从愿景上的区别。”王梦菲说。

“我们并不刻意强调在某一子技术领域的独特能力或与他人的差异。”夏立雪补充道,无问芯穹作为运营商,持续吸纳并整合最前沿的技术,核心目标是提升用户的使用体验,通过优化易用性和降低成本,来不断拓展市场规模。

在他看来,无问芯穹拥有的软硬件协同优化、多芯片统一调度等优势,只是实现目标的环节之一,最终打通产业链上下游才是公司的核心价值。

二、商业模式类同云厂商,预计3~5年内规模化盈利

王梦菲谈道,无问芯穹当前是一个比较轻资产运营的公司,上游主要是智算中心,与云厂商的关系以合作为主。

其做算力运营的商业模式非常清晰,与云厂商类似,有算力纳管的IaaS层、算力运营和调度的PaaS层、面向应用厂商的MaaS层,包括如何去上游整合资源、将技术能力转换为标准化产品、进行单位化定价和售卖,盈利能力与AI市场繁荣程度以及公司的市场份额高度挂钩。

与做大模型、做芯片的企业相比,无问芯穹不是一个特别烧钱的公司。据王梦菲透露,通过谨慎测算,无问芯穹预测将在3到5年内能够规模化地实现盈利。

据无问芯穹此前披露,其基于多元芯片算力底座打造的Infini-AI异构云平台,向下兼容多元异构算力芯片,现已运营的算力覆盖全国15座城市。

自平台上线以来,已有Kimi、LiblibAI、猎聘、生数科技、智谱AI等多个大模型行业头部客户在Infini-AI异构云平台上稳定使用异构算力,并使用无问芯穹提供的大模型开发工具链服务。

三、炼出千卡异构混训系统,支持6种AI芯片两两组合

夏立雪说,目前国内很多算力、硬件没有被很好地发挥出效能,因此无问芯穹重点攻关MxN核心技术,让不同模型能在各类硬件上高效部署,在算法与算力之间形成最佳软硬件优化协同。

无问芯穹在今年7月发布了大规模异构分布式混合训练系统HETHUB。这是业内首次在华为昇腾、天数智芯、沐曦、摩尔线程、AMD、NVIDIA共6种AI芯片组合间实现了千卡规模的异构算力混合训练,集群算力利用率最高达到97.6%,平均高出基准方案约30%。这意味着在相同的多元芯片机房条件或者集群条件下,无问芯穹可将训练总时长压缩30%。

混合训练是指多种AI芯片同时训练一个大模型。无问芯穹做到了6种芯片中任意两种组合混训,每一张卡之间都紧密配合,只用大约1个月就能完成一个综合的大模型训练,所用时长显著少于其baseline所需的两到三个月。

夏立雪告诉智东西,异构混合训练需求主要来源于三类客户:

第一,以一些有政企背景的客户为主,自建有地方集群,同时要考虑支持国产卡,需要借助混训能力来将集群效率发挥到极致。

第二,已经在用多种算力资源的客户。国内高质量算力资源有限,很多集群使用了先进算力+国产算力的组合。一些大模型客户已使用这样的集群,使用方式是把不同的硬件拆成了两个集群来使用。

第三,偏研究型的单位,同样有异构混训需求。

他进一步解释说,要实现异构集群高效配合,需攻关很多技术难点来保证效率和稳定性,使集群效果能够达到商业化水平。

其难点首先在于不同的卡有不同的算子库,每一个卡跑起来有很多技术实例,而无问芯穹能够把不同的模型和硬件直接连接;其次是对GPU性能的预测,通过任务拆分,让这些硬件能够各司其职,并在通信上实现很好地协调。这些都是无问芯穹团队所擅长的、所积累的硬核技术。

“我们把这个硬骨头啃下来,为的是能够通过这样的方式,让更多的人能够把没有被用好的异构算力用起来,从而真正让未来大模型领域有充裕的算力可以被使用。”夏立雪说。

结语:与国内硬件厂商、大模型公司密切合作

目前无问芯穹与部分国内硬件厂商、大模型公司均有深入合作,一方面能跟进模型快速变化,另一方面能提供适配于未来需求的、更好用的算力资源。

据夏立雪分享,无问芯穹首先会服务好做大模型训练的客户,因为它们的算力消耗量相对更大,同时也会针对一些未来有发展潜力的AI应用场景做足技术储备。