Meta表示Llama3击败了大多数其他型号包括Gemini

精选资讯 2024-04-19 10:43:55 编辑：

该公司在博客文章中表示，Meta的下一代大型语言模型Llama已于今天向AWS等云提供商发布，并且很快就会向HuggingFace等模型库发布，其性能比大多数当前的人工智能模型都要好。

Llama3目前有两个模型权重，参数分别为8B和70B。(B代表数十亿，代表模型的复杂程度以及它对训练的理解程度。)到目前为止，它只提供基于文本的响应，但Meta表示，这些是与之前版本相比的“重大飞跃”。Llama3在回答提示方面表现出更多的多样性，在拒绝回答问题时错误拒绝的情况更少，并且可以更好地推理。Meta还表示Llama3比以前能够理解更多指令并编写更好的代码。

在帖子中，Meta声称Llama3的两种尺寸在某些基准测试中都击败了Google的Gemma和Gemini、Mistral7B以及Anthropic的Claude3等类似尺寸的模型。在通常衡量常识的MMLU基准测试中，Llama38B的表现明显优于Gemma7B和Mistral7B，而Llama370B略胜于GeminiPro1.5。

还应该指出的是，基准测试人工智能模型虽然有助于了解它们的强大程度，但并不完美。人们发现，用于对模型进行基准测试的数据集是模型训练的一部分，这意味着模型已经知道评估者将提出的问题的答案。

基准测试显示Llama3的两种尺寸都优于类似尺寸的语言模型。截图：艾米莉亚·大卫/TheVerge

Meta表示，人类评估者对Llama3的评价也高于其他模型，包括OpenAI的GPT-3.5。Meta表示，它为人类评估者创建了一个新的数据集，以模拟可能使用Llama3的现实场景。该数据集包括寻求建议、总结和创意写作等用例。该公司表示，研究该模型的团队无法访问这些新的评估数据，并且它不会影响模型的性能。

“该评估集包含1,800个提示，涵盖12个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结，”Meta在其博客文章中说道。

Llama3预计将获得更大的模型尺寸(可以理解更长的指令和数据字符串)，并能够进行更多的多模式响应，例如“生成图像”或“转录音频文件”。Meta表示，这些较大版本的参数超过400B，理想情况下可以比较小版本的模型学习更复杂的模式，目前正在训练，但初步性能测试表明这些模型可以回答基准测试提出的许多问题。

不过，Meta并未发布这些较大模型的预览，也没有将它们与GPT-4等其他大型模型进行比较。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：