脑波解码延迟仅80毫秒,实时「意念对话」技术登Nature子刊
无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。
本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,一位推特博主的帖子浏览量突破了 150 万。

先来看效果。视频中的受试者严重瘫痪,不能讲话。她的大脑活动被解码为目标句子,然后使用文本到语音模型一次合成一个单词。
我们可以看到连接受试者头部的设备(connector)。屏幕上出现了目标句子(target sentence),然后从大脑活动解码文本,并应用「单词级文本到语音合成」。接下来是更多的示例:
论文一作 Kaylo T. Littlejohn 发推宣传团队的成果,他表示,这种流式「脑转语音」(brain-to-voice)神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。
同时他强调,泛化能力至关重要,随着快速改进设备,现在构建的解码方法应能跨用例转换(比如非侵入式与侵入式的权衡),并为未来的临床语音神经假体打好基础。

这项技术成果「牛」在哪里?
要知道在此之前,最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词,而且它不使用任何可听见的训练数据,用户甚至不需要尝试发出声音。
该研究来自加州大学伯克利分校(UC Berkeley),已经登上了最新一期《自然》子刊 Nature Neuroscience。

论文:A streaming brain-to-voice neuroprosthesis to restore naturalistic communication
论文链接:https://www.nature.com/articles/s41593-025-01905-6
该系统转录的目标是患者大脑的言语运动皮层,采用 253 通道 ECoG 阵列,深度学习神经解码器经过 2.3 万次转语音训练,构建了延迟仅 80ms 的 RNN-T 架构,既可以合成语音也可以进行实时转录,音色模仿自患者受伤之前的录音。
大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子,但在新的系统上,人类正在思考中的内容就可以被转为语音,延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。
在实际测试中可以看到,语音转录的效果快速、流畅且准确:在 50 个短语集(护理需要)的测试中,新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中,该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确,但已经证明了该系统的有效性。

此外,该系统成功地合成了在训练过程中未曾见过的新词汇。当给定 24 个新的词汇,例如 Zulu、Romeo,它正确识别出这些词汇的概率为 46%,而仅凭偶然猜测的概率为 3.8%。这一切仅通过神经活动就得以实现。

此外,该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,具体包括:
ECoG(皮层脑电图),通过植入大脑表面的电极阵列读取神经信号,无需穿透脑组织,创伤性较低;
MEA(皮层内微电极),通过植入大脑皮层的微型电极记录单个神经元活动;
EMG(面部表面电极,无需手术)。

一直以来,很多研究仅仅局限于试验阶段,相比之下,该系统能够持续工作,不需要预先编程就能够通过大脑活动检测到受试者何时开始和停止说话。研究者用时长 6 分钟的连续无声语音块对其进行了测试。结果显示,系统能够准确解码,几乎没有任何误报。

这项研究的解码速度达到了新的标杆,此前最佳解码速度为 28 词 / 分钟(WPM),该系统的表现达到 90 词 / 分钟(WPM),且延迟更低。
更重要的是,受试者无需发声,借助该系统,受试者用意念就能「说话」。
从临床角度看,这项研究能让失去语言能力的人重新获得说话的权力。从技术角度看,它解决了实时、流畅的神经语音解码问题。大家期待已久的无声交流正在实现,这也表明了语言可以完全基于神经信号来传达。
如果这项技术普及开来,我们可以想象 20 年后的世界,那将是不再需要手机、不再需要键盘、不再需要语音指令等等,你要做的只是思考,你的话语便能被实时感知。
参考链接:https://x.com/IterIntellectus/status/1906995681253822519
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。