之间网

Meta表示Llama3击败了大多数其他型号包括Gemini

精选资讯
导读 该公司在博客文章中表示,Meta的下一代大型语言模型Llama已于今天向AWS等云提供商发布,并且很快就会向HuggingFace等模型库发布,其性能比...

该公司在博客文章中表示,Meta的下一代大型语言模型Llama已于今天向AWS等云提供商发布,并且很快就会向HuggingFace等模型库发布,其性能比大多数当前的人工智能模型都要好。

Llama3目前有两个模型权重,参数分别为8B和70B。(B代表数十亿,代表模型的复杂程度以及它对训练的理解程度。)到目前为止,它只提供基于文本的响应,但Meta表示,这些是与之前版本相比的“重大飞跃”。Llama3在回答提示方面表现出更多的多样性,在拒绝回答问题时错误拒绝的情况更少,并且可以更好地推理。Meta还表示Llama3比以前能够理解更多指令并编写更好的代码。

在帖子中,Meta声称Llama3的两种尺寸在某些基准测试中都击败了Google的Gemma和Gemini、Mistral7B以及Anthropic的Claude3等类似尺寸的模型。在通常衡量常识的MMLU基准测试中,Llama38B的表现明显优于Gemma7B和Mistral7B,而Llama370B略胜于GeminiPro1.5。

还应该指出的是,基准测试人工智能模型虽然有助于了解它们的强大程度,但并不完美。人们发现,用于对模型进行基准测试的数据集是模型训练的一部分,这意味着模型已经知道评估者将提出的问题的答案。

基准测试显示Llama3的两种尺寸都优于类似尺寸的语言模型。截图:艾米莉亚·大卫/TheVerge

Meta表示,人类评估者对Llama3的评价也高于其他模型,包括OpenAI的GPT-3.5。Meta表示,它为人类评估者创建了一个新的数据集,以模拟可能使用Llama3的现实场景。该数据集包括寻求建议、总结和创意写作等用例。该公司表示,研究该模型的团队无法访问这些新的评估数据,并且它不会影响模型的性能。

“该评估集包含1,800个提示,涵盖12个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结,”Meta在其博客文章中说道。

Llama3预计将获得更大的模型尺寸(可以理解更长的指令和数据字符串),并能够进行更多的多模式响应,例如“生成图像”或“转录音频文件”。Meta表示,这些较大版本的参数超过400B,理想情况下可以比较小版本的模型学习更复杂的模式,目前正在训练,但初步性能测试表明这些模型可以回答基准测试提出的许多问题。

不过,Meta并未发布这些较大模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。

标签: