Arm說明Lumex運算叢集不再沿用Cortex命名是因應發展需求 強調當前技術授權更具彈性
▲Arm资深副总裁暨终端产品事业部总经理Chris Bergey等主管针对此次公布Lumex运算子系统细节进行分享
针对此次公布揭晓锁定旗舰行动平台设计的Lumex运算子系统细节,Arm资深副总裁暨终端产品事业部总经理Chris Bergey表示在此次运算子系统采用全新命名的CPU运算丛集名称,进而舍弃过往采用许久的Cortex命名方式,同时也预期全新运算子系统设计能进一步推动Arm设计授权生态成长。
舍弃Cortex命名方式是因应发展需求
Chris Bergey说明,在先前因应不同运算需求调整产品名称,使其更清楚识别个别对应运算场景时,其实就已经说明将以Ultra、Premium、Pro、Nano,以及Pico等命名原则区分性能等级,让开发者与合作伙伴更容易透过Arm产品名称了解特性与版本差异。
▲Arm Lumex运算子系统针对消费行动装置打造,目标借由SME 2延伸指令集与全新CPU运算丛集提高运算性能
因此在此次提出全新Lumex运算子系统,同时也宣布以C1作为全新CPU运算丛集名称,另外也针对GPU提出全新Mali G1系列名称,同样以Ultra、Premium与Pro作为产品性能区隔,不再沿用先前提出的Cortex名称,GPU部分虽然保留Mali名称,但也不再使用Immortalis名称,透过Mali G1-Ultra、Mali G1-Premium与Mali G1-Pro命名方式,借此提供更直觉得性能定位识别性。
▲C1系列CPU运算丛集区分定位旗舰的Ultra、此次新增锁定次旗舰的Premium,以及讲求运算性能与电力平衡的C1-Pro,另外也包含追求更极致能源效率的C1-Nano,并且全面对应SME2延伸指令集
▲Lumex运算子系统也同时包含新GPU,并且更名为Mali G1-Ultra等名称
▲除了更新运算丛集,Lumex运算子系统也采用全新内部连接设计,使其更具执行性能与运作效率,同时也能具备扩充性
另一方面,Arm终端产品事业部产品管理副总经理James McNiven说明,C1-Ultra将会取代过往Cortex-X系列,C1-Pro则取代既有Cortex-A700系列,而C1-Nano则是取代Cortex-A500系列,至于此次推出的C1-Premium则是新增加设计,主要针对次旗舰手机产品设计需求打造,在缩减多达35%占用面积的情况下,提供相近的运算性能。
▲针对次旗舰设计的C1-Premium介于C1-Ultra与C1-Pro之间,跟Ultra比较为节省35%电力损耗,而跟Pro比较则是提升35%执行性能
至于先前同样提到的新运算丛集名称Pico,本身对应先前推出的Cortex-A300系列CPU,但本身并非隶属Lumex运算子系统,因此并未用于此次推出的C1系列CPU。
而在运算丛集核心组合部分,James McNiven说明依然延续先前DynamIQ与big.LITTLE组合规则,意味能针对实际运算需求更弹性构成不同核心架构,借此满足差异化的运算性能表现。
▲新版Lumex运算子系统同样延续DynamIQ与big.LITTLE组合设计,因此能依照需求建构极低耗电运作运算平台,或是结合更高性能的运算平台设计
不过,从目前处于产品过渡阶段,Arm实际上还是会保留部分Cortex系列CPU设计,例如先前针对汽车应用场景打造的Arm Zena运算子系统,其中采用针对车辆打造的Cortex-A720AE CPU高效能运算丛集,另外也以具备安全功能的64位元处理器Arm Cortex-R82AE针对车用区域控制器,以及安全岛 (Safety Island)提供高效能运算,但预期会随着后续产品生命周期改变逐步以新命名产品取代。
▲Arm强调其运算理念是优先提升性能,并且长时间确保电力使用效率,借此推动更高运算效益
SME与SME 2延伸指令集的差异
James McNiven指出SME与SME 2延伸指令集的差异,主要是升级版本上的不同,并且可应用于既有或新版CPU运算加速,借此提高AI应用服务运作效率,例如针对以Whisper为基础的语音识别大幅提升执行速度,大型语言模型互动输入部分则能在相同时间内对应处理更多词元量,并且加快AI内容生成速度。
▲借由SME2延伸指令集提高执行效率、降低电力损耗,并且强调其可程化应用特性
▲对比目前有不少业者采用的Cortex-A78与旧版Armv8.2版本指令集,先前推出的Cortwx-A720 CPU借由Armv9.2指令集可提升5%执行性能,而配合SME延伸指令集则可提升13%性能,而C1-Pro CPU对应的Armv9.3指令集约可10%性能,加上SME2延伸指令集更可提高19%性能
意味除了以新CPU、GPU运算丛集提升运算性能,Arm也强调能借由SME2延伸指令集加快人工智慧运算效率,同时也能借由SME2延伸指令集加快不同运算元件执行表现,进而加快推动AI终端运算个人化发展。
▲目前有不少AI应用主要还是仰赖CPU运算,并且标榜具备高度行动可携性、开发者友善,并且可对应更低执行延迟表现。但Arm方面仍强调实际执行效益还是要看AI具体应用而定
不过,针对人工智慧运算的提升,James McNiven强调主要还是要看实际应用需求,并且调用合适的运算元件,例如CPU、GPU与NPU有各自擅长的运算,另外也必须考量人工智慧实际应用场景,例如在可连网情况下以混合架构形式加速人工智慧运算,或是在断网情况下以装置端算力驱动人工智慧运作。
▲此次推出新款CPU运算丛集标榜带动双位数以上性能提升
接下来也会对应2nm制程、维持多元设计授权方式
目前Lumex运算子系统对应3nm制程设计,James McNiven虽然并未透露相关验证是在台积电,或是在三星制程技术上完成,但强调目前与多家晶圆代工厂均维持深度合作,甚至接下来也会推进支援2nm制程,借此让Lumex运算子系统也能对应更先进制程技术,借此满足更多处理器设计需求。
而针对当前设计授权部分,James McNiven强调还是会以CSS运算子系统授权为优先,但依然保留过往的RTL授权,以及客制化授权,借此对应市场业者不同设计需求,例如目前长时间与苹果、三星、联发科、华为等业者合作不同授权方案。
另一方面,James McNiven也认为像是小米投入打造自制处理器「玄戒O1」的作法,将成为接下来的市场发展趋势之一,但也认为目前越来越多业者希望打造自有处理器,却难以投入庞大资源的情况,实际上也为Arm带来许多发展机会。
不对市场传闻指称Arm自制晶片作回应
而针对先前市场传出Arm有意自行打造处理器产品,借此作为市场参考设计,吸引更多业者合作采用,但James McNiven并未对此作任何回应。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》