Meta 推出全新模型 Llama 3.1 405B 引发热议,这可能是第一次任何人都能免费下载 GPT-4 等级的大型语言模型,在特定规格硬体上运行。
Meta 23 日发表新模型 Llama 3.1 405B(4,050 亿参数),以及经过改善的 Llama 3.1 70B(700 亿参数)和 Llama 3.1 8B(80 亿参数)。Meta 执行长祖克柏(Mark Zuckerberg)将 Llama 3.1 405B 称为 Meta 第一个先进「开源」AI 模型,定位在业界先进模型之列,媲美 OpenAI GPT-4o、Claude 3.5 Sonnet 及 Google Gemini 1.5 Pro。
Meta 使用超过 16,000 个 NVIDIA H100 GPU,并从网路上抓取超过 15 兆 token 的训练资料(由 Llama 2 进行解析、过滤及注释)来训练 Llama 3.1 405B。
Meta 公布的图表显示,Llama 3.1 405B 在 MMLU、GSM8K 及 HumanEval 等基准测试中的性能非常接近 GPT-4、GPT-4o 及 Claude 3.5 Sonnet。
▲ Llama 3.1 405B 基准测试结果与其他 AI 模型进行比较。
相对於封闭模型,祖克柏认为 Llama 3.1 405B 不仅具有更好的成本效益,具开放性其成为微调和提炼较小模型的最佳选择。开发者可在自己的基础设施以 Llama 3.1 405B 运行推理,在面对使用者的推理任务、甚至是离线任务,成本约是使用 GPT-4o 等封闭模型的一半。
Meta 的「开源」模型
相较於前几款,Meta 称 Llama 3.1 405B 是一款「开源」模型。开源将确保世界各地的人能够获得 AI 的好处和机会,权力不会集中在少数人手中,而且技术能够均匀部署、安全跨越整个社会。
祖克柏强调,Llama 需要发展成为一个包含工具、效率改进、晶片最佳化及整合其他的完整生态系,如果 Meta 是唯一一家使用 Llama 的公司,整个生态系统将无法顺利扩张。与此同时,出售 AI 模型的存取权限并非 Meta 获利的商业模式之一。
不过,业界对於祖克柏所说的模型「开源」抱持怀疑态度,认为 Llama 3.1 405B 只是「开放权重」的模型,这意味着任何人都能下载经过训练的神经网路档案加以运行,微调成自己的模型;开源应有更严谨的定义,认为祖克柏滥用「开源」二字。
▲ 祖克柏发表长文谈开源 AI,期望 Llama 成为产业标准。
自从 Meta 4 月透露正在训练一款超过 4,000 亿参数的新模型,外界一直期待 Llama 3 新产品的到来。这次不仅是 Llama 3 系列参数最大的新成员,并且对外开放下载至自己的训练硬体加以运行,进一步挑战 OpenAI、Anthropic 等封闭 AI 模型的开发商。
- Zuckerberg Aims to Rival OpenAI, Google With New Llama AI Model
- The first GPT-4-class AI model anyone can download has arrived: Llama 405B
- Meta unleashes its most powerful AI model, Llama 3.1, with 405B parameters
(首图来源:AI at Meta)