OpenAI 神秘新模型 Q* 曝光!太强大让人警惕:网友称天网雏形
OpenAI 宫斗大戏刚刚落幕,马上又掀起另一场轩然大波!路透社曝光,在奥特曼被解雇之前,几位研究人员给董事会写的警告信可能是整个事件导火索:内部名为 Q*(发音为Q-Star)的下一代 AI 模型,过于强大和先进,可能会威胁人类。Q* 正是由这场风暴的中心人物,首席科学家 Ilya Sutskever 主导。人们迅速把奥特曼此前在 APEC 峰会上的发言联系在了一起:OpenAI 历史上已经有过四次,最近一次就是在过去几周,当我们推开无知之幕并抵达探索发现的前沿时,我就在房间里,这是职业生涯中的最高荣誉。”
Q* 可能有以下几个核心特性,被认为是通往 AGI 或超级智能的关键一步。
突破了人类数据的限制,可以自己生产巨量训练数据
有自主学习和自我改进的能力
这则消息迅速引发了巨大讨论,马斯克也带着链接来追问。
最新的梗图则是,好像一夜之间,人们都从研究奥特曼和 OpenAI 董事会的专家,变成了 Q* 专家。
突破数据限制
根据来自 The Information 的最新消息,Q* 的前身是 GPT-Zero,这个项目由 Ilya Sutskever 发起,名字致敬了 DeepMind 的 Alpha-Zero。
Alpha-Zero 无需学习人类棋谱,通过自己跟自己博弈来掌握下围棋。
GPT-Zero 让下一代AI模型不用依赖互联网上抓取的文本或图片等真实世界数据,而是使用合成数据训练。
2021年,GPT-Zero 正式立项,此后并未有太多直接相关的消息传出。
但就在几周前,Ilya在一次访谈中提到:
不谈太多细节,我只想说数据限制是可以被克服的,进步仍将继续。
在 GPT-Zero 的基础上,由 Jakub Pachocki 和 Szymon Sidor 开发出了 Q*。
两人都是 OpenAI 早期成员,也都是第一批宣布要跟着奥特曼去微软的成员。
Jakub Pachocki 上个月刚刚晋升研究总监,过去很多突破包括 Dota 2 项目和 GPT-4 的预训练,他都是核心贡献者。
Szymon Sidor 同样参与过 Dota 2 项目,个人简介是“正在造 AGI,一行代码接一行代码”。
在路透社的消息中,提到给 Q* 提供庞大的计算资源,能够解决某些数学问题。虽然目前数学能力仅达到小学水平,但让研究者对未来的成功非常乐观。
另外还提到了 OpenAI 成立了“AI 科学家”新团队,由早期的 “Code Gen” 和 “Math Gen” 两个团队合并而来,正在探索优化提高AI的推理能力,并最终开展科学探索。
三种猜测
关于 Q* 到底是什么没有更具体的消息传出,但一些人从名字猜测可能与 Q-Learning 有关。
Q-Learning 可以追溯到1989年,是一种无模型强化学习算法,不需要对环境建模,即使对带有随机因素的转移函数或者奖励函数也无需特别改动就可以适应。
与其他强化学习算法相比,Q-Learning 专注于学习每个状态-行动对的价值,以决定哪个动作在长期会带来最大的回报,而不是直接学习行动策略本身。
第二种猜测是与 OpenAI 在5月发布的通过“过程监督”而不是“结果监督”解决数学问题有关。
但这一研究成果的贡献列表中并未出现Jakub Pachocki和Szymon Sidor的名字。
另外有人猜测,7月份加入 OpenAI 的“德扑 AI 之父” Noam Brown 也可能与这个项目有关。
他在加入时曾表示要把过去只适用于游戏的方法通用化,推理可能会慢1000被成本也更高,但可能发现新药物或证明数学猜想。
符合传言中“需要巨大计算资源”和“能解决一定数学问题”的描述。
虽然更多的都还是猜测,但合成数据和强化学习是否能把 AI 带到下一个阶段,已经成了业内讨论最多的话题之一。
英伟达科学家范麟熙认为,合成数据将提供上万亿高质量的训练 token,关键问题是如何保持质量并避免过早陷入瓶颈。
马斯克同意这个看法,并提到人类所写的每一本书只需一个硬盘就能装下,合成数据将远远超出这个规模。
但图灵奖三巨头中的 LeCun 认为,更多合成数据只是权宜之计,最终还是需要让 AI 像人类或动物一样只需极少数据就能学习。
莱斯大学博士 Cameron R. Wolfe 表示,Q-Learning 可能并不是解锁 AGI 的秘诀。
但将“合成数据”与“数据高效的强化学习算法”相结合,可能正是推进当前人工智能研究范式的关键。
他表示,通过强化学习微调是训练高性能大模型(如 ChatGPT/GPT-4)的秘诀。但强化学习本质上数据低效,使用人工手动标注数据集进行强化学习微调非常昂贵。考虑到这一点,推进AI研究(至少在当前范式中)将严重依赖于两个基本目标:
让强化学习在更少数据下表现更好。
尽可能使用大模型和少量人工标注数据合成生成高质量数据。
……如果我们坚持使用 Decoder-only Transformer 的预测下一个 token 范式(即预训练 -> SFT -> RLHF)……这两种方法结合将使每个人都可以使用尖端的训练技术,而不仅仅是拥有大量资金的研究团队!
One More Thing
OpenAI 内部目前还没有人对 Q* 的消息发表回应。
但奥特曼刚刚透露与留在董事会的 Quora 创始人 Adam D’Angelo 进行了几个小时的友好谈话。
看来无论 Adam D’Angelo 是否像大家猜测的那样是这次事件的幕后黑手,现在都达成和解了。
参考链接:
[1]https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
[2]https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
[3]https://www.youtube.com/watch?v=ZFFvqRemDv8
[4]https://www.youtube.com/watch?v=Ft0gTO2K85A
[5]https://x.com/cwolferesearch/status/1727727148859797600
[6]https://twitter.com/DrJimFan/status/1727505774514180188
声明:本文转载自快科技,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。