算力新星LPU带火SRAM 业内人士如何看存算芯片未来?
《科创板日报》2月27日讯(记者 郭辉)日前Groq公司的LPU芯片产品横空出世,其在特定场景下的推理速度较英伟达GPU提高10倍,成本却只有其1/10,激起资本市场对相关技术的关注。
LPU最大的产品设计特点是,存储方案摒弃了此前资本市场关注并大热的HBM,而是选用了SRAM,也让SRAM高存取速度、高可靠性等方面的优势在聚光灯下被放大。
SRAM的全称为静态随机存取存储器 (Static Random-Access Memory, SRAM) ,是随机存取存储器的一种。作为一种较为成熟的存储技术,SRAM早于上一世纪便作为独立存储芯片存在,后逐步以IP核形式集成于SoC芯片中,近年则由于存算一体方案兴起,SRAM作为存储介质的一项选择被越来越多关注。因此对科技圈——尤其是在学术领域来说,SRAM技术应用及其沿承,并不是新鲜事物。
此次Groq公司爆火,基于SRAM的算力芯片究竟能否满足市场的需求和想象?LPU的本质是什么?Groq公司LPU产品所面向的场景和用户群,能支撑起一种新的商业模式吗?对于这些问题,《科创板日报》记者对话了亿铸科技资深器件专家Ray,尝试从技术本身出发,探讨商业可能性和市场机会。
亿铸科技是国内一家新兴的存算一体芯片企业,该公司成立于2020年,创始人熊大鹏为美国德州大学奥斯汀分校博士、前知名AI芯片公司Wave Computing中国区总经理。
在公司创办之初,亿铸科技核心成员曾探讨过多种不同的存储介质,就包括SRAM在内。但确定要做大算力推理芯片之后,他们综合评估后最终选择了ReRAM。ReRAM(阻变存储器)近几年被学界及产业界认为是当下最具前景的新型非易失性存储介质之一。
亿铸科技资深器件专家Ray告诉《科创板日报》记者,存储介质的选择很大程度需要考虑具体应用场景。但在商业环境下,只考虑性能不考虑成本也是不现实的。SRAM高带宽的特性,以及读写速度、耐久度方面的优势明显,可以依靠先进制程提升性能并满足特定需求,但在大算力、低功耗、高精度的AI推理计算场景,ReRAM等新型存储介质或许才是更优解。
存算芯片产业实例:SRAM存储介质为何落选?
▍《科创板日报》:近几年业内对SRAM这一传统存储介质前沿的讨论集中在存算一体芯片领域,从技术角度来讲,基于SRAM做存算一体芯片的优劣势分别是什么?
▍亿铸科技Ray:在学术领域,SRAM凭借其高成熟度和高存取速度成为存算一体领域里的热门研究对象;在市场应用方面,SRAM作为传统存储介质适合IP化,SRAM存算一体在中小算力、端侧、对待机功耗无要求的场景,例如:可穿戴设备、边缘计算、无人车等市场具有一定的应用价值。
但SRAM也因其单元面积大、静态功耗高、易失性、对PVT变化敏感、存储密度低、密度提升潜能较低、成本高等特点,在应用于一些大算力、大容量、高密度集成的大型神经网络计算场景时会受到较多限制。
▍《科创板日报》:亿铸在选择主要的技术路线时,没有选择SRAM方案,而是选择基于RRAM做存算一体AI算力芯片,是怎么考虑的?
▍亿铸科技Ray:在成立之初我们探讨过很多种不同的存储器件来实现存算一体,不同存储介质的选择和应用场景息息相关,我们首先确定要做的是AI大算力推理芯片,于是就要从算力潜能、精度、计算效率等角度对不同器件进行评估,结果显示RRAM是最合适做AI大算力推理方向的存算一体芯片。
没有选择SRAM是因为其应用于大型神经网络计算面临着两大挑战:
首先是漏电流。
当SRAM应用于存算一体架构,由于SRAM即使待机也会产生静态漏电功耗,因此,大量的SRAM封装在一起,实现巨量的并行计算(读取操作)要解决巨大的电流电压波动问题和功耗问题。所以对企业来说,实现SRAM大容量和高并行度读取(高算力)的设计和工程落地有着较高的工艺和设计门槛,会导致设计和工程成本极高,也成为基于SRAM的存算一体技术商用路上较难跨越的阻碍。
在未来的车载和数据中心的应用场景中,SRAM的高功耗,和器件特性对温度比较敏感等特性,还可能导致用电量高和运行不稳定。
其次是密度。
SRAM基本单元是由6个Transistor组成的锁存结构,密度相对来说较低。存储单元在做存算的时候,需要更多Transistor进行控制,比如使用8T、10T或更多Transistor的架构,导致了面积大、单位密度受限。
同时,SRAM算力的提升主要靠工艺制程的升级,器件本身在密度上难以实现大规模突破。
相比之下,ReRAM的微缩性有着天然的优势,不主要靠CMOS制造工艺的升级就可以实现每代密度翻倍。
在未来,大型神经网络参数动辄几个GB,大模型如GPT3.5参数就达到了175B,SRAM难以容纳如此大的参数,所以很难跟上AI模型规模的发展节奏。相比之下,基于ReRAM的存算一体芯片可以轻易做到高密度,而亿铸科技的方案还能够实现多芯片互联,从芯片系统角度进一步提升密度和算力。
另外,基于ReRAM的全数字化存算一体技术,无需ADC/DAC模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题,非常适合实现大算力、高精度、高能效比的存算一体AI芯片。
评价存储介质的好坏离不开应用场景
▍《科创板日报》:SRAM有没有可能因为类似LPU的产品而迎来爆发?产业界怎么看SRAM进一步发展的前景?
▍亿铸科技Ray:评价存储介质的好坏离不开应用场景,根据应用场景需要的不同,需要找到合适的器件去支撑,没有一种器件是可以满足所有场景的需要的,而应用需要的不同,也给了不同的存储器件出现、发展、持续演进的机会。
同样的存储介质,应用在存储和存算两个方向上,所带来的评价是不同的。目前的LPU产品,比如Groq的LPU,其利用SRAM高带宽的特性,通过集成230MB的SRAM来替代DRAM,但其中的SRAM本质上还是发挥存储功能。
在“存储”这个领域上,SRAM的优势主要在于读写速度和耐久度,但其仍然存在密度低,成本高等问题。而“存算”器件要求更大的算力潜能、更高的算力精度、更快的算力效率,面对大模型带动的AI加速计算大算力场景,RRAM更适合作为存储介质去实现存算一体AI大算力芯片。
▍《科创板日报》:从现有Groq公司释放的LPU产品信息来看,使用的是存算一体的方案吗?
▍亿铸科技Ray:Groq公司的LPU使用的是一种近存计算的方案。此前谷歌的TPU也是采用近存计算技术,把存储芯片分成小块,放在计算芯片的附近,虽然可以提升数据搬运的速度,但本质上还是冯诺依曼架构,并没有从根源上解决“存储墙”的问题。
▍《科创板日报》:有业内分析称,Groq之所以选择SRAM,在于LPU只需负责推理,而不处理训练。对此您的理解是什么?
▍亿铸科技Ray:Groq选择SRAM的原因有很多种可能,首先是SRAM读写速度要显著快于英伟达采用的DRAM。
在推理阶段,用户是实时交互的,数据也是实时的,采用高速存储介质更为合适。英伟达GPGPU目前主要是应用于训练,训练必然有大量数据,且对实时要求没那么高。那用成本更低的DRAM也是合适的。从这一角度来讲,选择SRAM做AI推理计算比选择DRAM延时更低,计算效率更高。
但这不意味着SRAM就是大算力AI推理计算的最优解。因为即使针对推理应用,面对很多大模型,SRAM较低的容量也可能使得LPU捉襟见肘。
在大算力、低功耗、高精度的AI推理计算场景中,对比来看,有比SRAM更优的存储介质选择,比如ReRAM的好处就在于,功耗低、面积小、读写速度快,且密度极大,可以做到SRAM密度的几十上百倍,并且不依赖CMOS工艺的升级就可以实现每代密度和容量翻倍。
“Groq的成功国内可能很难复制”
▍《科创板日报》:此次Groq公司LPU产品爆火,对半导体产业有何启示?暂时抛开性价比谈算力,靠产品高投入、高定价去满足特定需求,这种思路有没有可能成为一种新的商业模式?
▍亿铸科技Ray:在商业环境下,只考虑性能不考虑成本是不现实的。
在面对未来的智能经济这一议题,不少业内人士纷纷提出了“急需降低算力成本”这一诉求,这也是当前发展AI产业最强烈和刚性的需求。
在未来,如果要让AI等同于水、电……成为所有人的生产生活不可或缺的重要生产要素,它的算力成本就需要降低到能支持产业进一步升级并具备能被广泛使用的普适性。如果说大模型的任务是让AI“够聪明”的话,那么算力的任务就是让AI“够便宜”,两者应共同发展直到AI作为一个全新的生产要素在更大范围内参与生产和生活,真正惠及千行百业。
另外,满足特定需求的AI计算芯片可以统称为ASIC芯片,这一赛道上谷歌已经研究多年,其最大的缺陷在于通用性。正如一些专家分析的,从技术和性能上来看,Groq目前还不能撼动英伟达的地位。因为英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。
简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。
这就带来了实际使用中的价格问题。Lepton AI的贾扬清做了一个详细的计算,发现如果运行三年的话,Groq的硬件采购成本是 1144 万美元,运营成本是76.2万美元或更高。8卡H100的硬件采购成本是30万美元,运营成本是7.2万美元或略低。
而对于国内的AI计算芯片来说,还需要克服先进制程依赖的问题,这也使得我们很难复制Groq的成功。
▍《科创板日报》:SRAM本身是比较成熟的技术,那么现阶段对SRAM技术和方案的讨论,在您看来在哪些领域或解决什么样的问题才是真正有价值的?
▍亿铸科技Ray:基于大容量SRAM的LPU芯片的爆火体现了对于算力越来越大的需求,因为其相比于GPU,推理速度大幅提升。而在今后的发展过程中,前面提到的算力成本的降低将成为非常重要的问题,并且在保持高算力的情况下,提升能效比也应当是亟须进一步解决的问题。这也为基于ReRAM等其他新型高密度非易失性存储器,通过存内计算的方式进行高算力、低功耗的计算,提供了很好的机会。