对话深势科技张林峰:北大90后独角兽公司,要做微观世界的Sora?
作者 | Yoky邮箱 | yokyliu@pingwest.com
北大90后创立独角兽公司,带着“微观世界版的Sora”来了。
4月12日,深势科技在京举办了2024年开发者大会,首次披露了科学大模型体系“深势宇知®”,并全景式展示了其多年来在AI for Science领域的相关技术、算法、产品和前沿探索的成果及布局。
在AI圈,深势科技是少有的“北大系”,其创始人兼CEO孙伟杰与创始人兼首席科学家张林峰均为90后,两人为北大元培学院的同窗。毕业后,2018年,面对巨大的AI浪潮,二人一拍即合,成立了AI for Science 的“基础设施”公司——深势科技。
我们发现在6年的时间里,深势科技与协作者们的成果已经构建起了繁茂复杂的“大模型之树”,在其中4个底层大模型的基础上:DPA(分子模拟大模型)、Uni-Mol(分子构象大模型)、Uni-RNA(核酸结构大模型)、Uni-Fold(蛋白折叠大模型),在诸多场景里进行结合。
其中DPA是原子间势函数的预训练大模型,也就是我们所讲的“微观世界的Sora”。
之所以如此类比,其本质原因在于Sora通过学习宏观物理世界的规律模拟现实,而DPA则模拟微观世界间原子间相互作用势能的规律,进行分子模拟,“拍摄原子分子的电影”,掌握了微观世界的本质规律,在此基础上进行原子级别的再创造。
DPA-1模型发表于2022年12月,几乎与ChatGPT同期发布,开发者在含有56种元素的较大数据集上进行了预训练,并将此预训练模型在各种下游任务上进行了迁移学习。2023年12月,DPA-2发布,采用了多任务训练的策略,可以同时学习计算设置不同、标签类型不同的各类数据集。
从实现路径上看,深势提出的科学实验算法分级理论与Sora的路径也颇为相似,其中L1为模仿现实,即对实验结果的复制和外推;L2为预测现实,对现象的预测接近实验精度,并有可预期的误差范围;L3为搜索现实,对应Sora的验真阶段,能够准确预测现象,并从空间中搜索出最佳结果。
相比之下,微观世界的Sora比宏观世界更难打造。深势科技CEO孙伟杰提到:“微观世界的数据比宏观世界更难获取和沉淀,这是微观大模型的核心难点。”
在AI for Science领域,深势科技打破了垂直行业突破的模式,而致力于通过底层的技术创新,将实验室研发模式迭代为工业级生产,激发AI for Science的潜力。当然,这个过程中面临着更多现实问题,比如算力资源的调用、算法的突破、创新路径等等。
带着这些问题,本期硅星人对话深势科技创始人兼首席科学家张林峰博士,打开关于AI for Science的一道新思路。
以下为对话实录:
1、硅星人:您在分享中多次提到,DPA核心解决的问题是“深度学习提供了克服‘维数灾难’的工具”,解决了“维数灾难”对于Science而言意味着什么?将带来哪些实质性的改变?
张林峰:在我的演讲主题“从一个原子,开始重构世界”下面有一排特别小的字,叫做原子利用率是我们最后工业生产的工厂。在大部分的化学材料里面,其实最后就是原子间怎么组合的问题,所以对原子的操作能力和这个能力的可扩展性,是解决大部分科学问题的一个核心。
回到“维数灾难”上,所谓“维数灾难”是指在进行复杂系统模拟时,随着系统规模的增加,所需的计算资源和数据量呈指数级增长,导致传统计算方法变得不可行,这会大大降低原子利用率。而我们在乎的药物、电池、化工、材料等等领域的研发中,复杂体系的高精度/高效模拟是一个核心瓶颈。DPA通过深度学习提供了一种有效的工具来解决这一问题,它能够在保持量子力学精度的同时,显著地提升分子动力学计算的速度跃迁数个量级。
2、硅星人:能否为我们举一个相对直观的例子?现实世界中有哪些因为“维数灾难”而不可解决的问题?
张林峰:三体运动本身就是一个很好的例子。可能《三体》的读者都知道三体问题几乎不可解,而微观世界里的一个个原子相互作用,是比三体更复杂的多体问题。
微观世界的粒子拥有更深刻甚至更唯一的规律,哪怕不是在量子力学,仅或在牛顿力学之下,虽然依然有显线性方程,但就是解不出来。更不要说我的体系足够多的时候,要求解一个蛋白体系,蛋白有数万个原子,蛋白泡在水里水分子又包含了数十万个分子,构建这个体系的原子数最小也要几十万,维数就是几百万,过去我们缺乏有效的工序和基础设施高效的解决这些现实问题。
3、硅星人:过去的路径是什么?和现在对比起来,DPA带来了哪些实际的变化?
张林峰:过去想要解决一些问题,很贵,几乎是用钱堆起来的。我们想要求解10个原子、100个原子的体系是可以做的,但更高维数就意味着算力资源的几何增长。
在我刚开始和我的导师做研究的时候,研究了一组数据是64个水分子在非常微观的体系下研究它们的相互作用。他们用了两亿个core hours,在超算上转了三个月,大约相当于几千万人民币这样的一个机时基石消耗。但当我们第一次实现这个模型的时候,这64个水分子是我们第一个训练数据,我在笔记本上运行训练模型做同样的事情,一共消耗时长不到5天。换句话说就是把以前,以前超算上才能解决的复杂计算,用AI在消费级电脑上就做到了。
4、硅星人:对于大模型而言,微观世界的数据缺乏或者说天价问题如何解决的?是否也会通过数据标注的形式进行供给?
张林峰:其实这个过程刚好是反过来的。数据标注本身是拿准确的量子力学来进行的。
你可以理解为,微观世界数据本身就是已经被标注好的状态,但找到数据的方法是未知的。而宏观世界数据更容易获得,却需要进行再处理。
所以模型进行学习的时候,更重要的是设计找到数据的方法,有了方法之后微观世界实现数据标注反而是容易的。难点在于我们需要判断,在新的需求下,能不能形成真正规模化的标准数据,哪些需要云哪些需要超算。以及面向应用需求,需要标注哪些数据、生成哪些数据,当数据的标准足够多覆盖整个元素周期表,也就具备了所谓的做大模型的基础。
实际上从三年前开始,也就是2020年的时候数据才开始足够多,我们才能够将非常多的方向以新的方式连接起来,系统性的设计数据和利用数据,并在各种各样的微观建模和模拟以应用在实际生产中。
5、硅星人:从这个角度来说,DPA是否可以被类比为“微观世界的Sora”?
张林峰:我认为是“微观世界的达索”更加准确。(达索系统(Dassault Systèmes)以其在三维设计、3D建模和产品生命周期管理(PLM)做到了世界级领先。被广泛应用于航空、汽车、建筑和其他工程领域,帮助工程师设计和模拟复杂的系统工程。)科学的一个特点的跨尺度,不同尺度有自己的‘规律’:微观有量子力学,宏观有牛顿力学,在两者之间还有一系列不同尺度的物理方法体系。Sora 是在宏观像素层面进行训练的,而DPA的训练是在原子、电子的纳米世界的。
从我们的目标上来说,将类似的能力带到科学研究的微观世界中,这样的平台将使科学家能够设计和测试新的药物分子、材料和化学反应,而无需依赖于昂贵和耗时的实验室实验。科学研究领域需要一个强大的基础设施,使得AI for Science能够在虚拟环境中创新和探索。做单一的AI工具和算法并不能解决根本问题,构建一个全面的平台,能够支持跨学科的合作和创新,才能释放创造力。
6、硅星人:这是不是深势除了做底层模型之外,也做了开源社区的原因?
张林峰:我们常说产生连接,形成迭代。
开源社区的本质是产生连接。最开始的时候我作为开发者,做非常基础的基础科学研究,每天都被研究材料学甚至天文、地文里面的天体表面催化问题的同学找过来,哪怕是研究地质内核没办法真的采样,但在知道里面的压力、温度元素这些元素之后,需要解决计算问题的工具。在这个过程中,我们发现做科研的人用AI越来越多、计算量越来越大。这些人需要和基础设施产生连接,甚至慢慢从学院自动化走向智能化。
我们的能力提升一点,就会打开更多的可能性,包括数据的积累、算法的迭代、算力的整合,都是可以进行开源的部分。而对每一个新可能性的成功探索,都会再次沉淀为我们的能力,形成开放开源的良性循环。
7、所以深势要打造的AI界的HuggingFace?
张林峰:可以这么说,HuggingFace与其他开源社区的本质不同是协同开源的生态,我们最后想要达到的是推动原子生产制造的工业软件体系,这个过程中真正“卡脖子”的是大家能不能有效的使用,来产生更好的迭代。这个过程其实是从一个弱连接的社区形态到一个开放的开发系统的进化,封闭的系统基本上不可能完成,我们从物理上就证明了封闭系统的产值是最慢的。
8、硅星人:从AI的角度来看,深势既涉及到了数据层、算法层和算力层?又涉及到了很多种不同的领域,为什么要全部做一遍?
张林峰:这几乎不是我们想做,而是我们必须做。AI for Science之所以如此复杂,是大多通用型AI的解决方案都不满足Science的需求,这个AI需要在工业里面有各个层次的实践。
几乎是根据Science的特性,将AI重构了一遍。
比如说最底层的AI芯片,算力层面同等消耗算力进行更高性能的计算,我们整合了云算力、硬件算力等等,通过一套更高效的算力调度系统,用更少的算力完成同等的任务。
再往上到一些算法框架,无论是之前的CNN、RNN还是Transformer,这些算法都不能够满足Science所需要遵循的基本的物理特性,比如微观世界的连续对称性、原子间电子间非常近或者非常远时的渐进行为,需要得到严格的保障,因此我们在原有的系统上进行了创新,我们称之为MOS。
数据层面则更是已经探讨过,微观数据的稀缺是全世界范围都存在的问题,我们几乎是要找最原始的一波数据。
9、硅星人:如果要给深势一个定位的话,于整个AI for Science而言,深势的位置是什么?
张林峰:如果要为深势科技在整个AI for Science领域中定位,我们可以将其视为一个创新的引领者和基础设施提供者,类似于安卓操作系统在智能手机和其他移动设备领域的作用。安卓为移动应用开发者提供了一个广泛采用的、开放的、可定制的平台,而深势科技致力于为科学研究提供一个强大的、基于AI的计算平台。这个平台使科研人员能够更高效地进行模拟和数据分析,推动科学发现和技术创新。
首先我们希望能成为基础设施的构建者,如DPA算法和其他微尺度工业设计和仿真平台,为开发者提供先进的计算工具和平台;其次通过开源社区和合作项目,鼓励开放的科学交流和协作;以及开放的API接口和易用的应用体系,就像安卓系统通过提供统一的开发环境和接口来加速移动应用的开发。
10、硅星人:AI for Science,是AI更重要还是Science更重要?深势的团队构成是什么比例?AI的技术人员比较多,还是Science的技术人员比较多?
张林峰:AI给我们打开了很多可能性,但就目前的阶段,我觉得Science比较重要。AI为科学研究提供了强大的数据分析、模型构建和计算能力,而Science则为AI提供了应用场景、问题定义和验证标准。
深势中AI技术人员和Science技术人员可能都有相当的比重,以确保技术的研发和科学的应用能够同步发展。我甚至很难定义我的团队,每个人的expertise是什么,Science的人要学习AI,AI的人也要学习Science,大家都会变成交叉学科。
在AI的视角下,整个Science的学科体系产生很大的变化,我觉得底层可能就是有了计算机之后,先是用于科学实验,后面乔布斯慢慢一步一步把PC变成大家都能用的,兼具设计美学和实用性,很多时候伟大的创新都是交叉学科的产物。
11、硅星人:您认为AI与Science结合的路径是什么?是由简单到难的路径,还是不同的分子量级对应着不同行业,比如原子级别就对应了生命科学,分子结构对应着材料等等?
张林峰:首先我觉得这两个路径永远是结合的,最好是会产生真理的,所以它是一个重复的还是一个动态结合的方式在各个层次上其实不一样。比如,我们当时研究了合金、研究了半导体之后发现,合金很多需求还停留在工艺方面;、半导体虽然需要很多计算服务设计,但它是一个非常ready的状态严格和细分的场景。2021年的时候,锂电池的产业链已经非常ready了,当时的瓶颈在于两个方向的研发测试。
我觉得最适合研究的就是工业软件体系,有了一个内核之后会跟很多场景产生联系,这个连接的过程既有技术本身的发展,也有需求场景被“卡脖子”的现实因素。
我们有一个很形象的比喻叫做“沿途下蛋”。
在远景明确的前提下,不能闭门造车,而是,在技术发展的过程中,沿途就会发现与很多场景的有了结合,发现能带来场景巨大的体验提升并能转化为商业价值的话,ready 一个就做一个。如果我们去描绘它的路径,应该是哪一个行业先准备好,就先去在哪个行业里做创新,它是根据实际情况反馈回来的,基础设施准备好以后,才能打开更多空间。
所以我们的路径是的,产生连接、形成迭代。