杠杆炒股,股票融资!
栏目分类
发布日期:2024-11-27 16:30 点击次数:96
(原标题:CPU需要HBM吗?)
若是您但愿不错频频碰头,宽饶标星保藏哦~
着手:内容编译自nextplatform,谢谢。
英特尔是第一家在 CPU 封装中添加 HBM 堆叠 DRAM 内存的主要 CPU 制造商,其推出的处理器是“Sapphire Rapids”Max 系列 Xeon SP 处理器。但跟着“Granite Rapids”Xeon 6 的推出,英特尔消灭了使用 HBM 内存,转而选择它但愿成为更主流的 MCR DDR5 主内存,该内存具有多路复用等第,可将带宽提高近 2 倍于老例 DDR5 内存。
英特尔为 Sapphire Rapids 添加 HBM 内存有其原因。主要原因是提高百亿亿亿次级“Aurora”夹杂 CPU-GPU 超等计较机的 CPU 性能,该超等计较机是英特尔在惠普企业的匡助下为阿贡国度履行室打造的。Aurora 机器领有 21,248 个 Xeon SP Max 系列 CPU,封装在 10,624 个节点中,此外还领有总共 63,744 个英特尔“Ponte Vecchio”Max 系列 GPU。(即单个节点中两个 CPU 搭配六个 GPU,这竟然是任何东谈主王人不错装入 Cray EX 滑轨空间的全部。)
向 CPU 添加 HBM 内存的另一个原因是但愿其他 HPC 中心能够发现,由于尚未将其利用纪律移植到 GPU,因此只可使用 CPU - 或者即使移植了也无法在责任负载上获取精致的性能 - 领有更多内存带宽的 CPU - 大要是往往 DDR5 内存的 4 到 5 倍 - 这将显赫提高带宽受限利用纪律的性能,而无需将这些代码移植到 GPU。
咱们以为将 HBM 安设在 CPU 上的思法是合理的。
除了 Aurora 以外,还有一些值得难得的机器使用这种内存,包括2022 年 9 月在洛斯阿拉莫斯国度履行室安设的“Crossroads”ATS-3 全 CPU 集群。Crossroads总共有 11,880 个 Intel Xeon SP-9480 Platinum Max 处理器,其中有 56 个内核,运行频率为 1.9 GHz,总共有 660,800 个内核,在 FP64 精度下可提供 40.18 teraflops 的峰值表面性能,功率为 6.28 兆瓦。
然而,正如咱们所说,Granite Rapids Xeon 6 处理器莫得配备更大 P 核的 HBM 变体,这为 AMD 推出 HBM 前端 CPU 掀开了大门,这是听说中的 Instinct MI300 系列计较引擎的“Antares-C”变体。
“Antares” MI300X 具有八个 GPU 芯片,就软件而言,其外不雅和嗅觉就像单个 GPU。本周在 SC24 超等计较契机议上亮相的劳伦斯利弗莫尔国度履行室“El Capitan”系统中使用的“Antares-A” MI300A 具有六个 GPU 芯片和三个八核“Genoa”芯片,总共 24 个内核。(每个芯片八个内核。)本周在 SC24 会议和拉斯维加斯的微软 Ignite 步履上王人告示了 MI300C,MI300 封装透彻填充了 Genoa 芯片 - 即两列六个芯片中有十几个芯片 - 总共可产生 96 个 Genoa 内核,咱们推测其运行频率与 El Capitan 中使用的 MI300A 混臆度较引擎上使用的 Zen 4 内核疏导,为 1.9 GHz。在单核活跃的情况下,这些内核在 Turbo 阵势下最高可达到 3.7 GHz。趁便说一下,MI300A 上的 GPU 芯片峰值速率为 2.1 GHz。
不外,这款耕作并非以 MI300C 的称呼出售,而是 Epyc CPU 居品线中的一款技艺居品,被称为 Epyc 9V64H,与英特尔的 Xeon SP Max 系列 CPU 雷同,明确针对 HPC 责任负载。也便是说,该耕作插入用于 MI300X 和 MI300A 耕作的 SH5 插槽,而不是用于 Epyc 9004(Genoa)和 9005(Turin)系列的 SP5 插槽。
值得难得的是,AMD 偏激 MI300C 耕作的首个客户 Microsoft Azure 并未聘用基于较新的 Turin Zen 5 中枢创建计较引擎的变体。MI300C 的责任或者是在 AMD 开动为 El Capitan 制造夹杂 CPU-GPU 芯顷然完成的,AMD 无疑不思知道 Turin 的玄妙,不然 Lawrence Livermore 可能会条件 MI355A 将过程调遣的 Antares GPU 与 El Capitan 的 Turin CPU 配对。
(那会很敬爱敬爱,不是吗?)
话虽如斯,关于 AMD 来说,基于基于 Zen 5c 内核的 Turin 芯片打造 MI355A 或 Epyc 9V65H 显豁不会是一个很大的工程挑战。Turin X86 CPU 于 10 月发布,它们提供以 3 纳米工艺蚀刻的八核 Turin 芯片,使每个插槽的芯片数目加多了 33%,因此中枢数目从 Genoa 的 96 个加多到 Turin 顶级部件的 128 个,加多了 33%。虽然,Turin 芯片和 MI300 SH5 插槽的布局当今可能与咱们的右侧一致,但表面上 AMD 不错通过将 16 个 X86 芯片陈设成两列来快速拼装出具有 128 个内核的 MI355C,就像它在本体的 Epyc 9006 系列中仍是作念的那样。着实的问题是,为 MI300 系列分区的新 I/O 芯片是否不错映射到 Turin 芯片。
不管怎么,咱们频频饶有益思意思地离题计议。
进击的是,Epyc 9V64H 领有 128 GB 的 HBM3 内存,峰值时钟速率为 5.2 GHz,可提供总共 5.3 TB/秒的峰值内存带宽。比拟之下,使用 4.8 GHz DDR5 内存的往往 Genoa SP5 CPU 插槽可在十几个 DDR5 内存通谈中提供 460.8 GB/秒的带宽。因此,在疏导的 96 个 Genoa 计较中枢中,内存带宽提高了 11.3 倍。
趁便说一句,2022 年 11 月推出的 Xeon SP Max 系列 CPU有四个 HBM2E 内存堆栈,总容量为 64 GB,内存总带宽跳跃 1 TB/秒。AMD 提供的内核数目加多了 71%,内存容量加多了 2 倍,内存带宽大要是配备 HBM 的英特尔 CPU 的 5 倍。
好意思妙之处在于,微软正在将 Epyc 9V64H 处理器放入Azure 云上的四插槽 HBv5 实例中,何况配置看起来内核和内存中的一些东西仍是从其峰值表面极限略微回退了极少,而其他东西仍是被调高了。
El Capitan 系统使用 Infinity Fabric 将四个 MI300A 单位交叉耦合到分享内存结构中,以便其夹杂 CPU-GPU 中枢全部分享 512 GB 的 HBM3 内存,而且看起来微软使用的是疏导的架构:
据咱们所知,为惠普企业 (HPE) 制造系统板的东谈主也为微软 Azure 制造了系统板 - 甚而可能是 HPE 为这些 Azure HBv5 实例以及它们背后的通盘这个词工作器节点制造了系统板。
MI300C 使用的四路工作器卡(呃,期货配资Epyc 9V64H,请包涵咱们)有四个 Infinity Fabric 端口,可交叉讨好四个 SH5 插槽,内存结构带宽为 128 GB/秒,然后是四个挂在每个节点上的 PCI-Express 5.0 x16 插槽。微软暗意,这是迄今阻隔任何 AMD Epyc 平台的 Infinity Fabric 带宽的两倍。
非论怎么,进击的事情(亦然敬爱敬爱的事情)是,AMD 使用 SH5 插槽为其 GPU 式计较引擎制作了四路分享内存配置,但其本体 CPU 树立仍然最多只可终了双向分享内存配置。然而,若是您思要一台 AMD 四路机器,那么 El Capitan 和 Microsoft iron 便是可能的。咱们以为,AMD 应该制造四路工作器,以在高端内存数据库和分析市集上与 IBM 和英特尔一较凹凸,这为这项责任奠定了基础。
为了应答 HPC 领域需要高内存带宽的责任负载,Microsoft Azure 一直在其 HBv3 实例中使用64 核“Milan-X”Epyc 7V73X CPU,在其 HBv4 实例中使用96 核“Genoa-X”9V84X CPU。这些是 AMD 为 Microsoft Azure 创建的 Milan-X 和 Genoa-X 芯片的迥殊变体,您会铭记,X 变体具有 3D V-Cache,可将其 L3 缓存加多三倍,并在带宽受限利用纪律上将其性能提高约 50% 至 80%,这在 HPC 模拟和建模责任负载中很常见。
转向 HBM 内存会让这些 3D V-Cache 数字以子之矛,攻子之盾,虽然,部分原因是 MI300C 复合体在这些 X86 中枢块下方有“Infinity Cache”,它充任讨好中枢和外部 HBM 内存的超高速中间东谈主。咱们之前说过,当今再说一遍:一朝价钱迷漫低廉,通盘芯片王人应该有 3D V-Cache,即使仅仅为了在计较复合体上为其他东西留出更多空间并减弱中枢上的 L3 缓存区域。
以下是微软制作的一张敬爱敬爱的图表,展示了将 96 核 Genoa 计较空洞体迁徙到 MI300C 所带来的带宽上风:
本周,在 SC24 大会上,当咱们与劳伦斯利弗莫尔国度履行室利弗莫尔计较公司首席技艺官 Bronis de Supinski 驳斥 El Capitan 机器时,他向咱们评敷陈,CPU 内核“获取的带宽跳跃了它们所能驱动的带宽”。这也许不错诠释为什么更多 CPU 莫得 HBM 内存。
若是咱们以 128 GB HBM3 内存中每个 MI300 系列 SH5 插槽 5.2 TB/秒的速率取值,并将四个插槽放在沿途,咱们将在四个 SH5 插槽上获取 20.8 TB/秒的总带宽。多年来,在咱们揣渡过的大多数机器上,STREAM Triad 基准测试提供的合手续内存带宽约为单个耕作峰值表面带宽的 80%。因此,在 STREAM Triad 上合手续的带宽为 16.6 TB/秒。不错细则的是,Infinity Fabric 的 NUMA 特色有其本人的支拨,很难说这个支拨到底有多大。在 CPU 系统上,四路 NUMA 树立提供的性能约为表面 4 倍的 3.65 倍。(在 CPU 之间的聚拢数加多一倍的双向插槽上,您说的是 1.95 倍,而峰值表面为 2 倍。)
但在 Microsoft Azure 在其 HBv5 实例上运行的 STREAM Triad 测试中,合手续内存带宽为 6.9 TB/秒,远低于峰值团员带宽 20.8 TB/秒。议论到 CPU 内核可能无法像具有大量并行性的大量 GPU 内核那样驱动高带宽,也许有必要裁减 HBM 内存子系统的速率以匹配 CPU 不错和不可作念的事情。这是一个奇怪的风光,咱们已致电 AMD 和 Microsoft,以匡助咱们更好地明白 STREAM Triad 成果比咱们凭据 NUMA 支拨和以前在孤立耕作上进行的 STREAM 测试成果所预期的要小 2.2 倍的情况。
话虽如斯,四路工作器 6.9 TB/秒的速率远远跳跃 Azure 用于提高存在内存带宽问题的 HPC 利用纪律性能的其他双插槽工作器。(咱们亦然。咱们不作念评判。)
HBv5 实例使系统中 512 GB HBM3 内存中的 400 GB 到 450 GB 可供 HPC 利用纪律使用。在这个范围的尖端,平均每个中枢 3.5 GB,这比 Sapphire Rapids HBM 树立的每个中枢略多 1 GB 要好得多。Azure 上的 HBv5 实例每个中枢最多不错有 9 GB 的内存,因为每个中枢的内存是用户可配置的。在机器上的 384 个中枢中,有 352 个可供实例上运行的利用纪律使用。62 GB 到 112 GB 的 HBM3 内存和 32 个中枢被分派给 HBv5 实例中的支拨。(奇怪的是为什么这个臆造机责罚纪律和其他支拨莫得像 Amazon Web Services 使用“Nitro”NIC 那样卸载到 DPU 上,而谷歌正试图使用“Mount Evans”NIC 来作念到这极少。
HBv5 实例已禁用 SMT 以提高性能,这亦然一个单田户实例。该实例有一个 800 Gb/秒的 Quantum 2 InfiniBand 端口,该端口被分别为四个臆造 200 Gb/秒端口,每个插槽一个。这些 InfiniBand NIC 用于将节点聚集在沿途以分享责任,何况使用Azure VMSS Flex(臆造机规模集的缩写),其中的“Flex”暗意它相配纯真,因为它不错将臆造机散布在区域或可用区域的故障域中,微软暗意它不错“将 MPI 责任负载彭胀到数十万个 HBM 驱动的 CPU 中枢”。
这意味着微软仍是在各个地区安设了数千台四核 CPU 工作器,以便能够终了这一见解。这些系统还具有基于以太网的 Azure Boost 收罗接口卡,可为 HBv5 实例下的机器提供 160 Gb/秒的讨好。该机用具有 14 TB 的 NVM-Express 闪存,不错以 50 GB/秒的速率读取数据,以 30 GB/秒的速率写入数据。
HBv5 实例现时处于预览阶段,尚不明晰何时可用。MI300C(呃,Epyc 9V64H)现时仅通过 Microsoft 提供,显豁是与 Microsoft 密切相助开辟的,Microsoft 但愿在 Azure 上运行更多 HPC 代码。关于很多 HPC 客户来说,领有不错在不需要移植代码的 CPU 上提供 GPU 级内存带宽的硬件无疑是从土产货到云表的一大助力。
尽管如斯,咱们以为若是 OEM 和 ODM 能够获取 MI300C 那就太好了。也许 MI355C 或 MI400C 不错终了这极少。
https://www.nextplatform.com/2024/11/22/microsoft-is-first-to-get-hbm-juiced-amd-cpus/
半导体杰作公众号保举
专注半导体领域更多原创内容
关爱人人半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复旧,若是有任何异议,宽饶相干半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3955期内容,宽饶关爱。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”分享给小伙伴哦