Gemini 3.5 Live Translate 是我们最新的音频模型,提供超过 70 种语言的实时语音翻译。该模型自动检测语言,并生成流畅自然的翻译语音,保留说话者的语调、节奏和音高。与传统逐句翻译系统不同,3.5 Live Translate 实现了连续生成语音,平衡了等待上下文以提高质量与即时翻译保持同步之间的权衡。它提供流畅的音频,避免了尴尬的停顿,整个会话中仅滞后几秒。
Gemini 3.5 Live Translate 现已在 Google 产品中推出:
- 开发者通过 Gemini Live API 和 Google AI Studio 进行公共预览;
- 企业用户在 Google Meet 中进行私有预览;
- 所有用户可在 Android 和 iOS 的 Google Translate 中使用。
该模型在实时流媒体中处理语音,支持多语言输入,无需手动配置设置。同时,其噪声鲁棒性确保在嘈杂环境中也能正常工作。用户可以利用它来进行多语言会议、课程、广播等实时翻译。
借助 Gemini Live API,开发平台如 Agora、Fishjam、LiveKit 等可以轻松构建和部署语音翻译应用。这些集成处理复杂的实时媒体流基础设施,使开发者能够专注于用户体验。
用户反馈积极,不少公司如 Grab、CJ ENM、LiveKit 等对 3.5 Live Translate 的翻译质量、准确性和低延迟表示赞赏。在即将推出的 Google Meet 中,语音翻译将使用 3.5 Live Translate,支持超过 2000 种语言组合,界面也将更新以提供即时访问。
另外,Android 用户可以体验新的“听模式”,在没有耳机的情况下直接通过手机听到翻译,适用于快速获取翻译的场合。所有由模型生成的音频都带有 SynthID 水印,确保 AI 生成的内容可被检测,从而防止虚假信息的传播。
博主点评: Gemini 3.5 Live Translate 的发布标志着语音翻译技术的重大进步,其流畅性和多语言支持为用户提供了前所未有的体验。随着技术的不断演进,未来的沟通将变得更加无障碍。该模型的应用场景广泛,期待其在实际使用中的表现。