加州大学圣克鲁斯分校的一篇研究论文及其随附文章讨论了人工智能研究人员如何找到一种仅以13瓦功率运行现代十亿参数级LLM的方法。这大约与100W当量的LED灯泡相同,但更重要的是,它比NvidiaH100和H200等数据中心GPU所需的700W功率高效50倍,更不用说即将推出的BlackwellB200,每个GPU的功耗高达1200W。
这项工作是使用定制的FGPA硬件完成的,但研究人员澄清说,他们的(大部分)效率提升可以通过开源软件和调整现有设置来实现。大部分收益来自于从LLM训练和推理过程中删除矩阵乘法(MatMul)。
如何从神经网络中去除MatMul,同时保持相同的性能和准确性?研究人员结合了两种方法。首先,他们将数字系统转换为使用-1、0和1的“三元”系统。这使得计算可以通过求和而不是乘法来实现。然后,他们将基于时间的计算引入方程式,为网络提供了有效的“内存”,使其能够以更少的运算运行得更快。
研究人员用作参考点的主流模型是Meta的LLaMaLLM。这一努力的灵感来自微软关于在神经网络中使用三元数的论文,尽管微软并没有像加州大学圣克鲁斯分校的研究人员那样去掉矩阵乘法或开源他们的模型。
归根结底这是一个优化问题。撰写这篇论文的研究生之一Rui-JieZhu说:“我们用更便宜的运算取代了昂贵的运算。”这种方法是否可以普遍应用于人工智能和LLM解决方案还有待观察,但如果可行,它有可能彻底改变人工智能格局。
在过去的一年里,我们目睹了领先的人工智能公司对权力的渴望似乎永不满足。这项研究表明,这在很大程度上是一场争先恐后地使用低效处理方法的竞赛。我们听到了Arm首席执行官等知名人士的评论,他们警告说,如果人工智能对电力的需求继续以目前的速度增长,到2030年将消耗美国四分之一的电力。将用电量减少到目前的1/50将代表一个巨大的进步。
希望Meta、OpenAI、谷歌、Nvidia和所有其他主要参与者能够找到利用这一开源突破的方法。更快、更有效地处理人工智能工作负载将使我们更接近人脑的功能水平——据估计,大脑每天大约需要0.3千瓦时的电力,或NvidiaH100所需电力的1/56。当然,许多LLM需要数万个这样的GPU和数月的训练,所以我们的灰质还没有完全过时。