英特尔Gaudi2加速器在MLPerf4.0GenAI基准测试中展现出与NVIDIAH100相当的性价比

综合信息 2024-06-13 11:06:16

导读英特尔在MLPerfTrainingv4.0中发布了其最新的Gaudi2加速器基准测试，声称它是AICompute和GenAI工作负载的低成本替代方案。英特尔Gaudi2AI加...

英特尔在MLPerfTrainingv4.0中发布了其最新的Gaudi2加速器基准测试，声称它是AICompute和GenAI工作负载的低成本替代方案。

英特尔Gaudi2AI加速器在最新MLPerfAI基准测试中表现出色，进一步优化GenAI和计算性能

今天的MLPerfTrainingv4.0基准测试对英特尔来说意义非凡，因为这是该公司首次提交大规模Gaudi2系统的性能，该系统包含1024个加速器，所有加速器均在英特尔Tuber开发者云上进行训练，以展示英特尔AI产品组合的性能和可扩展性。该软件生态系统用于在MLPerf的GPT-3175B参数模型中微调这些加速器的性能。

英特尔表示，通过这些新的基准测试，英特尔展示了其Gaudi2加速器如何成为一种可扩展、经济实惠且易于访问的GenAI和AI计算解决方案，可以训练具有700亿个、高达1750亿个参数的LLM，而下一代Gaudi3加速器将在支持开放软件套件的同时实现性能的下一个飞跃。

再次，通过最新的MLPerfv4.0基准测试，英特尔证明它是NVIDIAH100的唯一AI计算基准替代方案，后者在66.9分钟TTT(训练时间)内完成了175B的运行。不仅如此，在使用LoRa(低阶适配器)的全新微调Llama270B模型中，英特尔仅在八个Gaudi2加速器上就实现了78.1分钟的TTT。

英特尔Gaudi2MLPerf结果展现透明度：MLPerf结果显示，Gaudi2仍然是NvidiaH100的唯一MLPerf基准AI计算替代方案。在Tiber开发者云上进行训练后，英特尔的GPT-3在1,024个Gaudi加速器的AI系统上的训练时间(TTT)为66.9分钟，证明了Gaudi2在开发者云环境中的超大型LLM上具有强大的扩展性能。

基准测试套件采用了一种新的测量方法：使用低秩适配器(LoRa)对Llama270B参数模型进行微调。微调LLM是许多客户和AI从业者的常见任务，因此它成为日常应用的相关基准。

英特尔的提交在八个Gaudi2加速器上实现了78.1分钟的训练时间。英特尔利用OptimumHabana的开源软件进行提交，利用DeepSpeed的Zero-3优化内存效率和大型模型训练期间的扩展，以及利用Flash-Attention-2加速注意力机制。基准测试工作组由英特尔Habana实验室和HuggingFace的工程团队领导，负责参考代码和基准测试规则。

英特尔强调，Gaudi2加速器的主要卖点是价格。在台北国际电脑展上，英特尔宣布，配备8个加速器和通用底板(UBB)的Gaudi2AI系统售价为65,000美元，估计仅为竞争解决方案成本的三分之一。不仅如此，类似配置的英特尔Gaudi3套件售价为125,000美元。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:得益于苹果的游戏移植工具包2和macOSSequoia

下一篇:最后一页