谷歌干掉了「等你说完才翻译」!70+语言边听边译

浏览16次 点赞0次 收藏0次

【导读】Google 发布 Gemini 3.5 Live Translate,把实时同传从「等你说完再翻」推进到「边听边说」,70+语言、几秒延迟、语气保留。

一句话还没说完,译音已经响在你耳边——而且是对方的语速、对方的语调,只慢几秒。

刚刚,Google 甩出了 Gemini 3.5 Live Translate。

这是它最新的语音对语音翻译模型,一句话概括:把「等你说完再翻」的老规矩,直接掀了。


Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股「二十年磨一剑」的底气:

语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。


把「对讲机」式翻译给掀了

过去的翻译机大家都熟。

你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。

一来一回,节奏全断,俩人像在打对讲机。

更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。

Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。

这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。

模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。

更绝的是声音本身。

它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。

DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。


换句话说,Google 给它定的 KPI 不是「翻得对」,而是「聊得顺」。

它能一口气认 70 多种语言,而且全自动识别,你中途换种语言它也能跟上,不用手动设置。环境吵也不怕,菜市场、机场、马路边都能用。

开发者、企业、普通人,一个不落

这次 Google 玩得很狠,三条线同时铺开。

  • 开发者,通过 Gemini Live API 和 Google AI Studio 公测,今天就能上手;

  • 企业,本月起在 Google Meet 私测;

  • 普通人,Google Translate 的安卓和 iOS 版全球上线——点开 App 左下角的「实时翻译」,接上任意一副耳机就能用。


最让打工人有感的是 Google Meet。以前它的语音翻译只支持 5 种语言,而且只能在英语和其他语言之间打转。

现在一口气干到 70+,单场会议能撑起 2000 多种语言组合——英语、普通话、瑞典语满桌子飞,谁说什么对方都能秒懂。

安卓还藏了个细节:「聆听模式」。把手机像打电话一样贴到耳边,译音直接从听筒里钻进来,旁人听不到。

跟个西语导游团、临时没带耳机,掏出手机往耳边一贴就能救急。

每月一千万通电话

光说参数太虚,看个真实场景。

Google 找了东南亚的 Grab 来试。司机说本地话,乘客听到的是自己的母语,接驾常用的那几句「你在哪」、「我马上到」不再鸡同鸭讲。

要知道,Grab 用户每月要打超过 1000 万次语音电话——这不是发布会上的 Demo,是真要塞进千万次日常对话里跑的活儿。

除了 Grab,CJ ENM、LiveKit 这些公司也提前上手试过,反馈都指向同一点:质量、准确度、低延迟。

开发者这边也省了大力气。

Agora、Fishjam、LiveKit 一票平台已经接入 Gemini Live API,把最难啃的实时媒体流基础设施全包圆了——采集、传输、回声消除这些脏活累活有人扛,开发者只管做体验。

视频配音、多语直播、跨语言客服、在线课堂,全是现成的落点。

二十年长跑,跑进耳机里

往回看一步,你会发现这事儿 Google 憋了很久。

20 年前,Google 翻译只是一个开创性的小实验,想把语言这门科学,变成人和人连接的魔法。

如今每个月,它要为数十亿用户翻译超过一万亿个单词。

从「把文字翻成文字」,到「拍张照翻菜单」,再到今天「把你说的话实时变成另一种语言的声音」,这条路走了整整二十年。

当然,话别说太满。

谷歌官方自己也标了限制:目前只吃音频输入;遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿,声音复刻还可能不稳。

它不是终点,但是一个相当能打的起点。

方向已经很清楚了。同声传译曾经是顶尖译员才扛得下来的活儿,一小时几千块,还得提前一周备稿。

现在,它正变成耳机里一个默默运转的功能,随叫随到。

当语言不再是墙,剩下的,就只有人和人想不想聊了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

https://deepmind.google/models/model-cards/gemini-3-5-audio/

https://ai.google.dev/gemini-api/docs/live-api/live-translate

https://x.com/JeffDean/status/2064400689825288351

编辑:所罗门

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯