芯片的PPA,还有意义吗?

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自semiengineering,谢谢。

自 EDA 诞生以来,功率、性能和面积 (PPA) 的优化一直是芯片设计的核心,但如果不了解这些芯片将如何以及在何处使用,这些指标的价值就会降低。

然而,与过去不同的是,现在的这种背景来自硬件开发之外的因素。尽管 PPA 仍然是硬件开发流程许多部分的有用代理,但各个组件的相关性往往不如过去。

多年来,人们又增加了其他关注点,尤其是能源和热量。这些指标都是相互关联的,因此不可能将它们视为优化的独立轴。复合指标(例如每瓦性能或每操作焦耳)可能更有意义。其他重要因素是可持续吞吐量或操作延迟。

随着特定领域解决方案的激增,上下文(Context)变得越来越重要。上下文可以来自两个独立的学科——系统和软件。虽然在将硬件和软件开发与分析结合起来方面取得了一些进展,最近又将硬件和系统结合起来,但这些联系仍然很薄弱。尽管如此,未来的设计必须将它们联系起来。

虽然将这三者结合起来考虑,可以实现全局优化,但这越来越被认为是一种奢侈,因为软件在人工智能等领域的变化如此之快。系统只能针对当今已知的内容进行优化。如果这些推测不正确,任何面向未来的措施都可能适得其反。

创建有效的工作流程正成为成功的关键。西门子 EDA 公司电子系统工程计划的解决方案架构师 Ahmed Hamza 表示:“硬件工程师认为他们已经制定了很好的方法。他们认为自己不需要系统工程师。他们一直在开发非常复杂的硬件架构。他们从系统工程师那里得到了一些要求,这些要求被抛在一边(见图 1)。然后他们竞相建造东西。问题是他们建造了完美的硬件,但你把软件放在上面,一切都崩溃了。然后就开始互相指责。”

错综复杂的网络

早期,芯片设计是一场性能竞赛。“虽然这是跨学科的,但最典型的是 CPU 千兆赫的竞赛,”Cadence 战略与新事业部总监 Rob Knoth 说。“当移动计算出现时,它为关注低功耗和能源的全新 EDA 技术和设计方法腾出了空间。这需要一种多学科的方法。这很难。你需要让更多的人参与进来。为了准确测量功耗,你必须讨论活动。你必须考虑权衡。你必须考虑妥协。你必须考虑最佳的整体电路。”

多年来,其他因素也变得越来越重要。Arteris 产品管理和营销副总裁 Andy Nightingale 表示:“性能仍然很重要,需要进行衡量,面积与硅片的成本直接相关。传统值仍然非常重要,但当你将它们与与功率密度相关的热值结合在一起时,就会影响设备的运行。如果过热,它必须断电,性能会随着能耗而下降。”

每个节点都会增加更多因素。“设计收敛的目标是根据特定条件或用户提供的输入,跨多个变量进行优化,”Synopsys 产品管理高级总监 Manoj Chacko 表示。“除了 PPA,现在还有 R,代表可靠性或稳健性。这始于我们必须考虑影响性能的 IR 压降。缓解这种情况的技术已经开发出来。然后我们看到了设备的可变性,以及基于邻居及其环境而变化的设备行为,这会影响设计的性能和功耗。”

所有这些影响都是相互关联的。“如果你能分散活动,就能降低峰值功耗,”Innergy Systems 创始人兼首席执行官 Ninad Huilgol 说道。“从系统级角度来看,这是确定电源、电网和 IR 压降大小时的一个重要考虑因素。分散活动可以通过在活动流中引入空闲周期或动态更改时钟频率来实现。结果是性能会降低,但影响热量的平均功耗可能会增加。”

时间因素正在被延长。“热管理对于持续的工作负载场景至关重要,例如长时间游戏或 4K 视频录制,” Arm客户端业务线产品管理高级总监 Kinjal Dave 表示。“如果设备在游戏过程中过热,用户体验就会下降,因为它无法持续保持高速。这会导致节流,导致帧速率下降,从而降低游戏体验。对于持续功率分析,必须确定某些工作负载可以维持多长时间,例如长时间玩游戏而不会降低性能。”

为了理解这些影响,必须将更多的物理知识引入分析。“随着 3D-IC 的出现,芯片和系统之间的联系更加紧密,我们需要关注以前在芯片设计领域没有担心过的新物理问题,”Ansys 产品管理总监 Preeti Gupta 说。“我们看到边界条件交换方面越来越复杂。例如,电迁移分析与电流密度有关。电流与温度有直接关系。随着温度升高,泄漏会呈指数级增长。”

这给优化工具带来了更大的压力。“与签核的集成非常重要,无论是时序分析、IR 分析、功率分析、变异性分析还是稳健性分析,”Synopsys 的 Chacko 说。“当优化工具与分析紧密集成时,我们就有了集成流程,例如时序、集成 IR、集成功率、集成变异性。我们以自动化的方式调用这些分析引擎。优化不仅仅是开始使用一个数据点来完成它的工作。”

优化意味着尽可能接近极限。“如果你在线段上使用实际温度,你就可以拥有更加稳健、优化的设计,”Ansys 的 Gupta 说。“我说稳健和优化是故意的,因为有时设计团队可能设计的最坏温度可能低于设备可能遇到的实际最坏温度。其次,你可能在很大程度上过度设计,大多数情况都没有达到最坏温度。只有一小部分达到了。你在过度设计方面放弃了大量的功率、性能和面积。”

这就是为什么越来越多地使用人工智能来帮助平衡这些因素。“设计师可以尝试各种不同类型的优化,”Synopsys 高级产品经理 Jim Schultz 说。“在许多情况下,他们依赖经验丰富的专业设计师。他们知道该尝试什么。但人工智能驱动的工具拥有所有这些参数。他们可以尝试多个参数,看看哪些参数能产生最佳结果。他们可以尝试很大的解决方案空间。”

虽然工程师可能正在尝试进行精细优化,但由于无法进行分析,因此会放弃更大的余地和性能。“这一直是 EDA 设计的核心难题,”Ansys 产品营销总监 Marc Swinnen 说。“您需要在设计流程的早期了解未来信息以进行优化,因此这始终是一个估算和使用更简单的分层模型、随着时间的推移进行改进并尽量避免迭代的问题。”

尽管这些低级因素相互关联,但类似情况也存在于更高级别。如今,很少有系统设计为在任何时候执行单一功能。这使得很难隔离系统级事件并对其应用指标。“可以通过测量宏观事件消耗的功率或能量来测量系统级功率,”Innergy 的 Huilgul 说。“这些是系统级事件,例如软件或固件中子程序的执行。特征化的系统级功率模型可以帮助估计这一级别的功耗。这些模型可以使用耗时较长的系统级事件来表征,以微秒或毫秒为单位。”

新指标

虽然低级优化仍然很重要,但系统级指标正变得更加突出。“这有商业方面,也有工程方面,”Expedera 营销副总裁 Paul Karazuba 说。“从商业角度来看,就是要了解客户最重要的愿望的排序。然后,从技术角度来看,就是要了解在这些约束条件下,在客户目标的边界条件下可以合理地做些什么。”

这些目标必须以有意义的方式实现。“在现代系统的背景下,除了基准之外,现在还必须从具体用例的角度来评估 PPA,”Arm 的 Dave 说。“对于 GenAI 工作负载,可以测量诸如首次令牌时间之类的指标,或者持续工作负载的每秒令牌数。系统基准可能涉及游戏的每秒帧数或每瓦帧数,其中这些指标可以最好地衡量电源效率和性能。安全应用程序可能会关注每个新安全功能的性能成本,强调在性能和硅片成本的同时尽量减少这笔费用。”

要达到这一水平,需要以系统为中心。“对于人工智能来说,硬件往往由重复数百或数千次的较小核心组成,”Huilgul 说。“在人工智能硬件上运行的软件往往很复杂。它需要学习新的做事方式。随着软件不断变化,您的功耗是否仍在您最初的目标范围内?这是一个新的重要挑战。可以通过构建系统的高级功率模型来解决这个问题,该模型可以向您显示软件运行时的动态功耗。”

对于某些任务,内部指标决定了操作。“线路长度是最重要的,”Arteris 的 Nightingale 说。“这是因为它会影响功耗、信号延迟、面积和可靠性。这与 EDP 相关,EDP 是一种结合了能量和延迟的能量测量。某件东西完成一项工作需要多长时间,在完成这项工作时消耗了多少能量?您可以从某件东西获得相同的 EDP,它做某事非常快但耗电量很大,或者某件东西做某事需要很长时间但能源使用效率很高。现在出现了一个新术语,称为速度提升、功率提升和绿色提升,它们补充了这些指标。这些对于评估平衡变得越来越重要,因为系统的性能、功率效率和现在的环境影响正在发挥作用。”

越来越多的声音也加入进来。Cadence 的 Knoth 表示:“对于电气工程、半导体和电子系统,随着我们参与讨论的声音越来越多样化,我们的工作只会越来越好。我们正在生产更高质量的系统和电路,因为现在设计半导体的不再只是电气工程师了。机械工程师也参与其中。软件工程师也参与其中。功能验证人员也参与其中。用例设计师也参与其中。真正关心产品整体寿命的人也参与其中。这一切都是为了改进工具,以便其他声音能够为讨论做出贡献。”

但是,将 EDA、系统和软件整合在一起也存在一些问题。西门子的 Hamza 说:“如果你去系统工程社区,他们使用以图表为中心的工具。它是为人设计的。在 EDA 方面,他们使用以数据为中心的工具,你可以用它生成模型、开发用例并进行分析。当前工具的问题是系统工具无法生成足够的保真度和确定性模型,以用于 EDA。我们需要为系统发明新的工具。”

这些团队之间需要交换模型和信息。“我们看到系统级人员要求提供芯片热模型,以便他们可以在系统级环境中运行它,包括气流和水冷,”Ansys 的 Gupta 说。“有人要求提供芯片功率模型和电源完整性模型。您正在进行封装设计,您需要芯片的芯片功率模型,以便进行系统级电源完整性。但这种建模需要以一种更标准化的方式传达信息,无论是热、功率、信号信息还是时序。”

尽管如此,进展仍在继续。“即将推出的新标准——SysML-v2——将为系统社区提供以数据为中心的模型,”Hamza 说。“现在,当你建立模型时,它们可以连接到 EDA 流程。另一个缺失的元素是需求并没有从系统一直链接到 EDA 级别。验证需要一直链接到系统,因为如果我们验证了某个东西并发现了问题,系统工程师不知道发生了什么。关于验证的知识需要一直追溯到系统级别,这样他们才能了解什么时候有什么东西不工作,或者性能不好。然后他们可以改变它,但他们需要沟通。我们正在研究多个部分,以将 EDA 域连接到系统域。”

结论

我们衡量系统质量的方法正在发生变化。它不再能用几个数字来定义,因为这些数字只在特定的环境中才有意义。该环境涉及软件和系统。

每个新节点都会增加寻找设计合适优化空间的复杂性,尽管人工智能可能能够帮助找到单元或块内的局部最小值,但真正的挑战在于高抽象层次,即架构选择。需要更多模型才能由工具自动处理。

https://semiengineering.com/is-ppa-relevant-today/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3886内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦