Meta 发布 Llama 4 系列 AI 模型，引入“混合专家架构”提升效率

2025-04-06 发布浏览432次点赞0次收藏0次

4 月 6 日消息，Meta 现已发布旗下最新 Llama 4 系列 AI 模型，包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth，Meta 透露相应模型都经过了“大量未标注的文本、图像和视频数据”的训练，以使它们具备“广泛的视觉理解能力”。

目前，Meta 已将系列模型中的 Scout 和 Maverick 上架到 Hugging Face（点此访问），而 Behemoth 模型则还在训练中。其中 Scout 可以在单个英伟达 H100 GPU 上运行，而 Maverick 则需要英伟达 H100 DGX AI 平台或“同等性能的设备”。

Meta 表示，Llama 4 系列模型是该公司旗下首批采用混合专家（MoE）架构的模型，这种架构在训练和回答用户查询时的效率更高，所谓“混合专家架构”基本上是将数据处理任务分解为子任务，然后将它们委派给更小的、专门的“专家”模型。

Meta 发布 Llama 4 系列 AI 模型，引入“混合专家架构”提升效率

例如，Maverick 总共有 4000 亿个参数，但在 128 个“专家”模型中只有 170 亿个活跃参数（参数数量大致与模型的问题解决能力相对应）。Scout 有 170 亿个活跃参数、16 个“专家”模型以及总计 1090 亿个参数。

Meta 发布 Llama 4 系列 AI 模型，引入“混合专家架构”提升效率

不过值得注意的是，Llama 4 系列中没有一个模型是像 OpenAI 的 o1 和 o3-mini 那样真正意义上的“推理模型”。作为比较，“推理模型”会对其答案进行事实核查，并且通常能更可靠地回答问题，但因此也比传统的“非推理”模型花费更长的时间来给出答案。

Meta 内部测试显示，Maverick 模型最适合用于“通用 AI 助手和聊天”等应用场景，该模型在创意写作、代码生成、翻译、推理、长文本上下文总结和图像基准测试中表现超过了 OpenAI 的 GPT-4o 和谷歌的 Gemini 2.0 等模型。然而 Maverick 与谷歌的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4.5 等功能更强大的最新模型相比仍有一定进步空间。

Meta 发布 Llama 4 系列 AI 模型，引入“混合专家架构”提升效率

而 Scout 的优势则是总结文档、基于大型代码库进行推理。该模型支持 1000 万个词元（“词元”代表原始文本的片段，例如单词“fantastic”可拆分为“fan”、“tas”和“tic”），因此一次可以处理“多达数百万字的文本”。

注意到，Meta 还进一步预告了其 Behemoth 模型，据该公司称，Behemoth 有 2880 亿个活跃参数、16 个“专家”模型，总参数数量接近 2 万亿个。Meta 的内部基准测试显示，在一些衡量解决数学问题等科学、技术、工程和数学（STEM）技能的评估中，Behemoth 的表现优于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro，但不如 Gemini 2.5 Pro。

Meta Llama 4 系列 AI 模型 OpenAI 英伟达谷歌 4 性能 AI Llama 4 GPT 测试 Claude 4o 写作

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Meta 发布 Llama 4 系列 AI 模型，引入“混合专家架构”提升效率

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。