返回

OpenAI大佬爆料：本科生靠一篇博客杀进OpenAI！没博士，0篇论文

2026-02-23 发布 · 浏览22次 · 点赞0次 · 收藏0次

【导读】他没博士、没论文，却靠公开改进论文和跑基准测试，直接打动大佬、入职OpenAI！Noam Brown亲证：行动力和开源项目，才是逆袭顶级AI实验室的真正通行证。

就在今天，OpenAI传奇研究员、德扑AI之父Noam Brown的一篇文章被刷屏了。

没有博士学位，没有研究背景，是否有可能在顶尖AI实验室找到工作？

这听起来像天方夜谭，但这个世界上奇妙的地方就在于，这样的例子还真不少。

比如，一个叫Keller Jordan的小哥，仅仅凭借一篇开源博客，就成功入职OpenAI，成为一名机器学习研究员！

是的，他没有写论文，而是将完整的研究过程、代码和实验结果在GitHub上完全开源。

最后Noam Brown总结道：虽然如今开放研究的空间比以前小了，但是在已有论文的基础上做改进，依然是一个向实验室研究员证明自己能力的绝佳方式！

这种做法，也会让对方更有信心，为你争取到一次面试机会。

从AI审核做起，走向人生巅峰

2020年，Keller毕业于UCSD，获得数学和计算机的双学士学位。

毕业时，他从未发表过任何一篇论文。

第一份工作，是在一家人工智能内容审核初创公司。

有一天，他看到谷歌研究大牛Behnam最近发表的一篇论文，想到了一个改进思路，于是给Behnam发了一封邮件。

Behnam看到邮件后，同意指导这个年轻人。在没有人脉、没有背景的情况下，小哥就这样和大佬搭上了线。

更神奇的来了，这段合作，最终促成了一篇ICLR论文。

再后来，Keller的一项表现亮眼的工作「NanoGPT speed run」，直接改变了全新的研究范式，这不仅让特斯拉AI负责人Karpathy称赞不已，还引起了OpenAI的注意。

这不是一篇传统意义上的论文，却成为Keller命运的转折点。

因为他所有的工作都有完整记录，而且成果可量化、进展清晰，所以，OpenAI毫不犹豫地向他伸出了橄榄枝。

让Karpathy直呼「干得漂亮」

NanoGPT是Karpathy开源的一个项目，是一个极简的轻量级GPT训练和微调框架。

而Keller喜欢干的一件事，就是不断刷新NanoGPT的训练速度。为此，他不断尝试新的方法。

在2024年10月，他跑出了一个成果，将训练Transformer模型的token效率提高了3.8倍！

这也让他直接赢得Karpathy的盛赞。

NanoGPT speedrun的目标听起来非常简单：在固定模型规模（124M Transformer）和固定验证集损失目标（3.28 val loss）的前提下，用尽可能少的token、尽可能短的时间完成训练。

Keller所做的，就是基于Karpathy的nanoGPT/llm.c PyTorch训练代码，将其改造为一个可复现、可量化、可对比的基准。

最终，他让Token效率提升了3.8倍，而且从原本约10B tokens降低到2.7B tokens，即可达到目标loss。

这意味着，这个改进可以被严格验证，是一个硬指标。

让实验便宜到「人人能参与」

而且，Keller还非常有独创性。

与很多动辄需要数十万、上百万算力成本的训练不同，他在设计这个speedrun时，有一个非常明确的原则：让尝试新想法的成本足够低。

为此，他刻意做了几件事，比如让代码压缩到极简，只有537行；在8×H100的全新环境下，让安装和运行的时间仅为20分钟；甚至单次的尝试成本，低至8美元。

即使在今天的AI研究环境中，这也是一个极其罕见的设计选择。

这就意味着，从此不是只有大实验室才能参与，所有个人研究者、学生、独立工程师都能快速验证想法，创新不会再被算力门槛挡住。

被OpenAI注意到

就这样，NanoGPT speedrun成为了Keller逆袭之路上的关键一环。

一切都表明，这个成果非常硬：代码、日志、实验都完全可复现；在指标上，完全无法作弊；甚至，还有开发社区的真实参与。

甚至连验证方式都被设计得极其严谨：每一次speedrun的log文件中，都会包含完整代码副本。

任何人想复现一个新纪录，只需调用log文件即可。

Muon横空出世

而接下来，整件事情发展到了高潮。

在2024年底，他设计的神经网络隐藏层的优化器Muon横空出世，直接凭卓越性能刷新了NanoGPT和CIFAR-10训练速度的世界纪录！

Muon，是一种为神经网络2D参数隐藏层设计的优化器。它的核心思想是，SGD-动量法（SGD-momentum）生成的更新矩阵，通过Newton-Schulz迭代进行正交化处理，生成接近于半正交矩阵的更新，从而提升训练效率。

它的实现简单高效，支持在bf16精度下稳定运行，显著降低了计算开销。

比起AdamW优化器，Muon在多个任务中，表现非常惊艳。

虽然AdamW能让GPT、LLaMA、Qwen学得又稳又快，但随着模型参数从几亿增加到几千亿，训练时间从几天变成几周甚至几个月，AdamW的局限性开始显现。

虽然还未成为主流通用优化器，但Muon的出现表明，它很可能是AI模型训练领域的一次重大基础创新。

入职OpenAI

Muon在开发者社区的影响力越来越大，也就在同时，Keller于2024年12月，正式加入OpenAI。

有趣的是，Keller在2月份表示，虽然Muon火了，也帮他进入了OpenAI，但是他不会给Muon写一篇论文。

在他看来，与其在arXiv发一篇大概率被「淹没」的论文，还不如继续老老实实地研究自己的优化器。

毕竟在他看来，大多数优化器论文都是虚假的水文。

这些人，都成功逆袭大公司

此外，Noam Brown还列举了其他成功的案例。

比如被谷歌DeepMind发掘的Sholto Douglas。

他在X上十分低调，从未以一作身份发表过任何引人注目的论文，入行时间也只有一年半，然而，他却是Gemini成功的背后关键人物。

还在麦肯锡工作时，Sholto就逐渐确信AI会迎来爆发，于是开始在业余时间做自己的项目，还在Jax的GitHub上提出不少有洞见的问题。

这些表现打动了James Bradbury，最终被邀请到谷歌DeepMind去面试。

Andy Jones是一位半退休的量化分析师，在测试时计算还没火起来之前，他就写了一篇论文，毕竟了比较了扩大预训练规模和扩大测试时计算量的影响。

这篇论文让人印象极其深刻，并是因为刷新了某个基准，而是做出了非常聪明的设计选择，自己编写了GPU加速的环境，并且进行了严谨细致的消融实验。

最终，Andy Jones入职Anthropic。

参考资料：

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163

谷歌 AI OpenAI 框架性能人工智能 GPT 算力测试特斯拉

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(22) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

评论

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问10人，当前在线12人，最高在线99人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。