AMDInstinctMI300AAPU背后的工程师发表了他们的研究成果。MI300A是ElCapitan的核心处理器,预计今年开始运行后将成为世界上速度最快的超级计算机。预计它的运行速度为每秒2百亿亿次浮点运算。
13位AMD科学家在最近的研究论文中合作,建立了实现百亿亿次浮点性能的方法和手段。上面来自X(以前是Twitter)的帖子提供了研究过程的绝佳鸟瞰图,由该论文的一位作者发布。虽然MI300A的存在无疑不是什么新鲜事,它于2023年5月首次为公众所知,但昨天在ISCA2024上发表的新论文有助于揭示香肠的制作过程——正是AMD的想法让他们优先考虑APU而不是专用GPU进行百亿亿次计算。
十多年前,美国能源部选择AMD参与超级计算机研究,InstinctMI300A应运而生。美国能源部期待超级计算机以百亿亿次浮点运算的速度运行,但随着摩尔定律即将终结,它知道必须进行更深刻的创新才能实现这一目标。尽管功能强大,但AMD认为独立显卡会带来太多空间限制和功耗,无法实现可扩展和百亿亿次级。因此,它开始研究“百亿亿次级异构处理器”。EHP项目基于打造一款能够与自身多个副本同步的强大企业级APU,它首先体现在Frontier中,这是世界上第一台达到百亿亿次浮点运算速度的超级计算机。
尽管Frontier超级计算机在首次推出时就取得了巨大成功,成为世界上速度最快的超级计算机,但AMD并未完全实现其EHP计划。Frontier基于EHP研究的基础,但使用专用的MI250X图形加速器,而不是AMD希望的一体式APU解决方案。为了按时推出Frontier,必须做出这种牺牲,因为AMD的V-Cache堆叠技术虽然前景光明,但尚未准备好迎接黄金时段。在Frontier期间计划的EHP第三次修订需要在每个GPU顶部堆叠HBM模块,以及其他当时不可能完成的任务。3DV-Cache不得不等待更长时间,这意味着Frontier推出时状态并不完美,但功能强大。
最终,3DV-Cache成为了如今的革命性技术,EHP也准备好冲过终点线。这款新的APU是基于Frontier内部EPYC处理器的CPU架构而诞生的。借助统一的InfinityFabric内存总线,MI300A最终可以在其图形和处理核心之间实现以TB/s为单位的传输时间。
作为EHP项目的最终形态,MI300A绝非玩笑。APU拥有24个Zen4x86CPU核心(分布在三个中),以及228个CDNA3GPU计算单元和128GB统一HBM3内存(运行速度为5.2GT/s),全部融入第四代Infinity架构。其规格表上的数字似乎是拼写错误,峰值内存带宽为5.3TB/s,理论峰值AI性能为3922TFLOPS(此处插入三个不同的免责声明)。
MI300AAPU上的GPU性能大大高于Frontier中MI250X的专用GPU性能。在一系列HPC工作负载综合基准测试中,MI300A的输出结果比MI250X快1.25倍到2.75倍。平均性能翻倍无疑证明了AMD和能源部争取EHP是正确的。