AI 中文社/资讯/详情

2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

2025-04-30 发布 · 浏览198次 · 点赞0次 · 收藏0次

4 月 30 日消息，在首届 LlamaCon 大会上，Meta 公司在推出独立 AI 应用之外，还发布了 Llama API，目前以免费预览形式向开发者开放。

援引博文，Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型，提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

开发者可通过一键创建 API 密钥，快速上手使用，同时 API 还提供轻量级的 TypeScript 和 Python SDK。为了方便开发者从 OpenAI 平台迁移应用，Llama API 完全兼容 OpenAI SDK。

Meta Llama API

Meta 还联手 Cerebras 和 Groq，进一步优化 Llama API 的性能。Cerebras 宣称，其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens / s，比 NVIDIA 等传统 GPU 解决方案快 18 倍。

根据 Artificial Analysis 基准测试数据，这一速度远超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼联合创始人 Andrew Feldman 表示：“我们很自豪能让 Llama API 成为全球最快的推理 API。开发者在构建实时应用时需要极致速度，Cerebras 的加入让 AI 系统性能达到 GPU 云无法企及的高度。”

此外，Groq 提供的 Llama 4 Scout 模型速度为 460 tokens / s，虽不及 Cerebras，但仍比其他 GPU 方案快 4 倍。在 Groq 上，Llama 4 Scout 每百万 tokens 输入费用为 0.11 美元，每百万 tokens 输出费用为 0.34 美元；Llama 4 Maverick 每百万 tokens 输入费用为 0.50 美元，每百万 tokens 输出费用为 0.77 美元。

OpenAI 测试 GPT ChatGPT AI 创始人性能 CEO Meta Python

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(198) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。