存力,AI升级的新动力
抢算力,已经成为当下科技公司、以及希望应用AI的诸多公司的头等大事。大算力,大力出奇迹。但实际上,只抢算力,是不够的。
虽然高端显卡产能还是紧俏,但算力逐步普及的同时,要想发挥算力的效果,还要抢存力。
关于存算的关系,最容易想起来的就是做饭了。好的算力,就是好的大厨,厨艺高超、同时掌七八个勺也没问题;而内存就是炒锅,厨子再厉害,只有一个炒锅,也只能一道道做菜。
当然,实际的存储,要比炒锅复杂多了。但就像人离不开炒菜,人类的发展也离不开存储。存储,不仅是数据仓库,也是生产力。而存力的升级,正为大模型进化带来加速,也成为企业之间竞争的重要要素。
存储,也是生产力
存储,一直是人类发展的重要加速器。
比如在文本领域,原始社会时,部落就学会在石壁作画来记录、存储信息,使得零散琐碎的经验,逐渐成为代代流传的知识。
随后,文字的出现,是人类文明“算法”的提升;活字印刷术、算盘等等工具出现,可以称为“算力”的飞跃;而从甲骨、毛皮、竹简再到纸张,这就是“存力”的升级。纸张的出现,大幅加速了知识传播,作为知识的载体,相当于为人类整体增加了智力光环,生产力大幅提升。
比如在声音领域。黑胶唱片,提升了对声音记录的精准度,也通过便捷的存储、读取,让音乐走向大众。随后也有了磁带、CD光盘等等存储方式。在视觉领域,从记录在纸张上的图画,到胶片、光盘,存储技术提升,不仅改善了画面的丰富度,也带来了全新的展现方式,比如电影的出现。
而今,所有的存储都走向了数字化,技术进步更在加速。存量在指数级增长,一张光盘,可以存下一个图书馆的所有书籍。越大的内存、缓存,也为CPU高效发挥提供保障。当互联网、移动互联网成为趋势时,分布式存储、云存储也应运而生,存储不仅更加便捷,也为企业节省成本。
在人类发展的不同时期,都有不同的存储技术出现,成为重要的生产力。既和当时的算力相匹配,也时常引领着算力发展,成为算力、算法提升的基础。
而在当下,算力的大力出奇迹,让AI呈现出了涌现,数学家、程序员、科学家、设计师、研发人员等等都开始用AI来高效辅助工作。毫无意外,AI依然会逐渐普及,深入社会各个层面,解锁新的生产力。而存力升级,也将会加速AI的发展。
AI发展,存力越来越重要
随着算力性能提升、产能逐渐释放,对于AI而言,存力升级越来越重要。
首先,量是不够的。 我国算力在提升,但存力却依然相对滞后。而且,在大模型时代,文本只是TB级,但多模态则是PB级要求,量级显著提升。从单模态走向多模态,存储需求量大幅增加。
其次,质是有要求的。 就像不是所有的显卡才算得上高端,被抢购;也不是所有的存储,都能被称为“存力”。生产力,必须顺应新趋势、解决新挑战,“过五关斩六将”。而大模型的发展则为存储带来了诸多变化和要求。
比如,通用大模型的数据样本是多模态的,包含多种类型的数据,包括文本、图像、音频、视频等等,对存储提出不同要求。
这些数据来源不一,协议也多样,同时有很强的异构性,具有不同的结构和特征。就像文本是序列数据,而图像则是矩阵数据,没有显著的序列特征。而文本的分析、图像的分类,也呈现了差异化、多样性。
粗糙打个比方,就相当于仓库里既要放需要冷冻的海鲜,又要放需要适温的蔬菜,还要放需要保持热度的鸡汤,这比只做个大冰库要麻烦多了。
再比如,大模型的生成式依靠海量数据加速训练,规模大、训练时间长,而且DL网络层多、连接多。每层都需要存储权重、偏置阐述,激活函数、输入输出数据、模型结构等等也需要存储,这就对存储带宽和I/O性能提出了更高要求。这也是HBM存储产品被大量采购的原因。
这个道理也简单,洗车场再大,入口如果只有一个窄门,那也是无济于事,浪费资源。数据加载要又快又大又好。
另外,由于数据量持续更新,因此对存储集群的可靠稳定性、安全性,也都要求更高。在数据流通方面,也要能够做到数据流动和统一管理,不能是“一潭死水”,而是“数据活水”。
同时,在节能减排的大趋势下,能耗也是一个“紧箍咒”。存储系统,在数据中心能耗中占比为35%,不能存力升级了、能耗却超标了。
总结而言,存储面临的状况就是:数据量更大、类型更复杂、性能高标准、稳定严要求;干的越来越多,但“吃”的却不能增加。
这得亏是存储,要换成人早撂挑子了。但显而易见的是,对企业而言,存储不升级,算力空闲置,AI受影响,竞争有劣势。那么,越来越重要的存力,该怎么升级呢?
一体化,让生产力一直高效
没有撂挑子的研发工程师们,还真的把存储的要求,给解决了。中科曙光提出了 “六个一”的存力一体化方案,正为AI发展按下加速键。
9月1日,“数字中国万里行-西部(重庆)科学城先进数据中心暨曙光存储一体化存力方案发布”活动正式举办。活动上,武汉光电国家研究中心吴非教授、中国计算机行业协会信息存储与安全专委会秘书长阳小珊、中国 E 企研究院创始人张广彬、中科曙光存储事业部副总经理张新凤共同发布曙光存储一体化存力方案。
当下存储面临的是GPU、CPU、TPU、AI等异构、复杂的业务场景,即使AI计算也要面对多模态数据样本,非常需要有统一的支撑能力。中科曙光就提出异构融合方案,通过支持全类别存储协议,实现多协议数据在多场景下的智能适配融合,为不同计算场景的AI提供支持。
面对深度学习网络层数多、连接多的痛点,曙光存储发布了业内首创的XDS加速技术,可实现智能芯片以直接数据访问的方式,提高训练过程中数据集的加载及处理速度。
同时,无论AI的训练、还是推理,都需要存储集群有稳定、持续的服务。中科曙光提出了数据安全一体化理念,基于近20年的积累,形成了硬件、软件、技术、生态等四个层面的安全体系,以及通过“部件、节点、系统、方案”的四级机制来保障可靠性。同时,也提供智能化技术更细腻管理存储资源。
大模型冠名“大”,不只是参数规模、算力需求提升,能耗也会相应增加了,因此,在节能减排的大趋势下,绿色一体化也是AI企业、数据中心的核心要求。对此,2022年,中科曙光就发布了当前也是业界首款液冷存储,存储节点PUE值下降到1.2以下;而针对不同数据中心的实际状况,也提供了不同的改造方案。
这“六个一”总结起来就是,“多场景”、“跨区域”、“全周期”、“多维度”、“一栈式”与“全链条”。这六个一,是中科曙光多年的经验积累、对客户需求的关切、对产业趋势的把握,将当前面临的挑战,实现了一一对应的方案。一体化的存力产品,可谓是买的越多、省的越多。
某AI科技公司就采用了中科曙光的一体化存力,用于大模型训练。分布式全闪存储节点,提供PB级高性能存储资源池,450GB/s+带宽,500万+ IOPS。极致性能,让大模型进化更快。
西部(重庆)科学城先进数据中心,作为全国一体化大数据中心首个落成的重要枢纽节点,也是中科曙光存力一体化方案良好实践之一。在自动驾驶等领域,一体化方案也正逐渐普及。
增效、降本、安全,让存储走向存力,存力,变成促进AI发展的生产力。
尾声
科技的发展,并不是一条线,而是一个森林式的生态,需要每个角落、每个维度,同时,每个角度、每个维度也都会跟随着进化。
就像AI发展,要算法、数据、算力。算法的改良,为AI指明方向;而超大算力的大力出奇迹,才有了涌现;但出奇迹的算力要发挥最佳效用,也需要存力跟上脚步、甚至提前准备;存力的发展,又会带来封力,也就是封装领域的升级要求。
因此,在科技生态里,每个角落都值得探索,做好每个角落的事情,都是机遇。
作者:远川科技组
视觉设计:疏睿
责任编辑:李墨天