Whisper是OpenAI开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练,这些数据是从网络上收集的。它被设计成对口音、背景噪音和技术语言具有健壮性,并且可以将多种语言的语音转录和翻译成英语。它是一种简单的端到端方法,实现为编码器-解码器Transformer。它还能够执行语言识别和短语级时间戳。它的设计易于使用,具有较高的准确性,允许开发人员为更多的应用程序添加语音接口。
类似的工具
其他人也看的工具
像素蛋糕PixCake
轻松实现“一秒初修,三秒精修”的批量修图操作
Photo Room
人工智能背景生成器,描述您想要的图像,它会使用符合您确切要求的稳定扩散神奇地生成无限数量的独特背景
STORYD
是一款强大的办公网页,能够...
威斯康星大学麦迪逊分校
威斯康星大学麦迪逊分校(University of Wisconsin-Madison,简称:UW-Madison)创建于1848年,位于美国威斯康星州首府麦迪逊,是一所公立研究型大学,该校是威斯康星大学系统的旗舰学府,也是美国大学协会和十大联盟创始成员,被誉为公立常春藤大学。
maya.ai
通过实时个性化选择来描述和吸引您的客户。使客户能够无缝交易
免费DeepSeek
DeepSeek是一款由国内团队开发的深度学习模型,拥有高达670亿参数,超越了国际领先的Llama2模型。本文将介绍DeepSeek的特点、优势、应用场景以及如何进行全面开源。DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。
AI 中文社
