AI 花 17 小时写了篇 30 页学术论文:自主选题,包含实验,还符合 APA 格式规范
不是拼凑知识点,AI 这次是真搞研究。
一个叫 Virtuous Machines 的 AI 系统,花了 17 小时、114 美元,找了 288 个真人做实验,写了一篇 30 页的学术论文。
而且还是从选题到成稿全自动化速通!?
来看看这个 AI 都写了点啥。
AI 自动化做科研:从灵光一现到可发表论文
像人类一样搞科研
AI 自主完成的这个论文属于认知心理学领域,具体聚焦于人类视觉认知相关的研究方向。
而且它可不是瞎写,而是靠人类的科研套路来。
先是基于认知心理学理论提出研究问题,比如“视觉工作记忆与心理旋转能力有没有关系”、“心理意象清晰度对视觉认知任务表现有什么影响”等。(视觉工作记忆是指人类维持并处理视觉信息的能力,涉及信息存储、操作和提取过程;心理旋转是指通过心理操作实现空间客体旋转以完成知觉匹配的认知过程)
接着设计实验方案,考虑到了样本量计算、控制变量,还用 VVIQ2 量表测量被试(对象)的心理意象清晰度;
在确定好实验方案后,它还通过在线平台 Prolific 招募了 288 名被试对象,等 277 份有效数据(部分被试未完成实验,被 AI 筛除了)收上来,它又连续写了 8 小时 Python 代码,用重复测量方差处理数据。
在分析数据的过程中,甚至会识别异常值、调整统计模型;
最后整理结果时,还能引用 40 + 篇 PubMed、Semantic Scholar 上的真实文献,连论文的“方法”“结果”“讨论”部分都符合 APA 格式规范。
这么高效,如何做到的?
不同功能的 AI 组队,专人专职
那就来扒一下这个 AI 系统的架构。
它的自主科研能力源于协作 + 模拟人类认知机制 + 动态知识交互的技术设计。
在协同架构中,Master 是核心控制模块,总领全局。
其他的 AI 助手模块聚焦文献检索、数据分析、实验设计等细分任务。
而支撑类人类认知机制发挥作用的底层能力基础则像“洋葱圈”。
最核心的是知识检索能力,能从海量学术数据库精准抓取知识;接着是抽象提炼能力,可从众多具体研究里总结通用逻辑;再往上是元认知反思能力,让 AI 能自我检查,比如做完数据分析会反问方法是否恰当、结论与假设逻辑是否通顺。
然后是任务分解能力,把科研大工程拆解成可执行的小任务,比如写论文拆分为文献综述、实验设计等环节;还有自主迭代能力,无需人工干预,AI 会反复修改论文草稿、调试崩溃的代码,直到满意。
最外层是多智能体协作能力,不同功能的 AI 小助手组队,让系统做到文献检索、实验设计、数据分析专人专职。
除此之外,还有个 d-RAG 实时记忆库,能一边查最新文献,一边记自己之前的研究,新老知识能交互整合。
这一套架构下来,17 小时写出 30 页论文也算是手拿把掐。
速度很快,小缺点也有
不过,这 AI 虽然卷,但也不是完美的。
虽然优点很明显:效率比人类团队快 10 倍以上,数据分析严谨到会拒绝统计显著性陷阱(就算 p<0.05,但如果效应量过小,也会说明“结果实际意义有限”),还能处理真实实验中的噪音数据等。
但它偶尔也会出现理论误解,比如把已有研究结论说成首次发现;漏标图表的 Y 轴单位、把“跨试次间隔”和“刺激呈现间隔”混用等。
只能说,AI 搞研究速度是挺牛,但想完全取代人类研究员的理论深度和创新思维,目前看来还差点意思~
研究地址:https://arxiv.org/abs/2508.13421
参考链接:https://x.com/IntuitMachine/status/1972252510585847835
本文来自微信公众号:量子位(ID:QbitAI),作者:闻乐
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。