20万张GPU！马斯克掏出「地表最强」大模型Grok-3，排行榜登顶，复仇OpenAI

2025-02-19 发布浏览553次点赞0次收藏0次

带点特斯拉、SpaceX 基因，工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了！

中午 12 点，所有人都在马斯克的直播预告中开始了等待。

在等到 20 分钟、线上观看人数达到 100 万时，直播终于开始，马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

根据工程师们介绍，准确地说，Grok 3 是一个系列，不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题，但会牺牲一些准确性。目前并非所有型号都已上线，但会从今天开始陆续推出。

马斯克则直接表示：Grok 3 比 Grok 2 「好 10 倍」，并且拥有扩展的训练数据集。

另外，原定要发布的语音模式延期了，但也不会等太久，一周左右就行。

不过现在的大模型，总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

^{这个数据中心建造的速度极快，只用了 122 天，二期还将增加到 20 万块 GPU。}

Grok 3 发布后有人就第一时间指出：它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确？

看来 Grok 3 主打一个力大砖飞，我们来看下基准测试的成绩吧。

在 Math（AIME 24）、Science（GPQA）和 Coding（LCB Oct-Feb）三方面，Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena（LMSYS）中，早期 Grok-3 版本的得分取得了第一，达到 1402 分，超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到，Grok-3 在每个维度上都排第一。

比如，在编码任务中，Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

在 Grok-3 发布不久，AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下：

Grok-3 + Thinking 的水平接近 OpenAI 最强模型（每月 200 美元的 o1-pro）的最先进水平，略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Grok-3 会尝试解决黎曼猜想，这一点和 DeepSeek-R1 类似，不像其他许多模型（o1-pro、Claude、Gemini 2.0 Flash Thinking）立即放弃并简单地说这是一个重要的未解问题。
DeepSearch 大约在 Perplexity DeepResearch 产品的水平，但还没有达到 OpenAI 最近发布的「Deep Research」的水平，后者感觉更加彻底和可靠。

推理能力一骑绝尘

超越 o3 mini、R1 等所有对手

与此同时，Grok-3 支持推理能力，解锁了测试时计算（test-time compute）能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

Grok-3 的推理基准测试结果也说明了这一点，它分为了两个版本，分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。

当使用更多测试时间计算时（图中延长部分），其中在数学（AIME’24）、科学（GPQA）和编码（LCB Oct-Feb）数据集上，Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型。