之间网

英特尔Gaudi2加速器在MLPerf4.0GenAI基准测试中展现出与NVIDIAH100相当的性价比

综合信息
导读 英特尔在MLPerfTrainingv4.0中发布了其最新的Gaudi2加速器基准测试,声称它是AICompute和GenAI工作负载的低成本替代方案。英特尔Gaudi2AI加...

英特尔在MLPerfTrainingv4.0中发布了其最新的Gaudi2加速器基准测试,声称它是AICompute和GenAI工作负载的低成本替代方案。

英特尔Gaudi2AI加速器在最新MLPerfAI基准测试中表现出色,进一步优化GenAI和计算性能

今天的MLPerfTrainingv4.0基准测试对英特尔来说意义非凡,因为这是该公司首次提交大规模Gaudi2系统的性能,该系统包含1024个加速器,所有加速器均在英特尔Tuber开发者云上进行训练,以展示英特尔AI产品组合的性能和可扩展性。该软件生态系统用于在MLPerf的GPT-3175B参数模型中微调这些加速器的性能。

英特尔表示,通过这些新的基准测试,英特尔展示了其Gaudi2加速器如何成为一种可扩展、经济实惠且易于访问的GenAI和AI计算解决方案,可以训练具有700亿个、高达1750亿个参数的LLM,而下一代Gaudi3加速器将在支持开放软件套件的同时实现性能的下一个飞跃。

再次,通过最新的MLPerfv4.0基准测试,英特尔证明它是NVIDIAH100的唯一AI计算基准替代方案,后者在66.9分钟TTT(训练时间)内完成了175B的运行。不仅如此,在使用LoRa(低阶适配器)的全新微调Llama270B模型中,英特尔仅在八个Gaudi2加速器上就实现了78.1分钟的TTT。

英特尔Gaudi2MLPerf结果展现透明度:MLPerf结果显示,Gaudi2仍然是NvidiaH100的唯一MLPerf基准AI计算替代方案。在Tiber开发者云上进行训练后,英特尔的GPT-3在1,024个Gaudi加速器的AI系统上的训练时间(TTT)为66.9分钟,证明了Gaudi2在开发者云环境中的超大型LLM上具有强大的扩展性能。

基准测试套件采用了一种新的测量方法:使用低秩适配器(LoRa)对Llama270B参数模型进行微调。微调LLM是许多客户和AI从业者的常见任务,因此它成为日常应用的相关基准。

英特尔的提交在八个Gaudi2加速器上实现了78.1分钟的训练时间。英特尔利用OptimumHabana的开源软件进行提交,利用DeepSpeed的Zero-3优化内存效率和大型模型训练期间的扩展,以及利用Flash-Attention-2加速注意力机制。基准测试工作组由英特尔Habana实验室和HuggingFace的工程团队领导,负责参考代码和基准测试规则。

英特尔强调,Gaudi2加速器的主要卖点是价格。在台北国际电脑展上,英特尔宣布,配备8个加速器和通用底板(UBB)的Gaudi2AI系统售价为65,000美元,估计仅为竞争解决方案成本的三分之一。不仅如此,类似配置的英特尔Gaudi3套件售价为125,000美元。

标签: