[AI造物主] 颠覆性的语音实时翻译：Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是我们最新的音频模型，提供超过 70 种语言的实时语音翻译。该模型自动检测语言，并生成流畅自然的翻译语音，保留说话者的语调、节奏和音高。与传统逐句翻译系统不同，3.5 Live Translate 实现了连续生成语音，平衡了等待上下文以提高质量与即时翻译保持同步之间的权衡。它提供流畅的音频，避免了尴尬的停顿，整个会话中仅滞后几秒。

Gemini 3.5 Live Translate 现已在 Google 产品中推出：

开发者通过 Gemini Live API 和 Google AI Studio 进行公共预览；
企业用户在 Google Meet 中进行私有预览；
所有用户可在 Android 和 iOS 的 Google Translate 中使用。

该模型在实时流媒体中处理语音，支持多语言输入，无需手动配置设置。同时，其噪声鲁棒性确保在嘈杂环境中也能正常工作。用户可以利用它来进行多语言会议、课程、广播等实时翻译。

借助 Gemini Live API，开发平台如 Agora、Fishjam、LiveKit 等可以轻松构建和部署语音翻译应用。这些集成处理复杂的实时媒体流基础设施，使开发者能够专注于用户体验。

用户反馈积极，不少公司如 Grab、CJ ENM、LiveKit 等对 3.5 Live Translate 的翻译质量、准确性和低延迟表示赞赏。在即将推出的 Google Meet 中，语音翻译将使用 3.5 Live Translate，支持超过 2000 种语言组合，界面也将更新以提供即时访问。

另外，Android 用户可以体验新的“听模式”，在没有耳机的情况下直接通过手机听到翻译，适用于快速获取翻译的场合。所有由模型生成的音频都带有 SynthID 水印，确保 AI 生成的内容可被检测，从而防止虚假信息的传播。

博主点评： Gemini 3.5 Live Translate 的发布标志着语音翻译技术的重大进步，其流畅性和多语言支持为用户提供了前所未有的体验。随着技术的不断演进，未来的沟通将变得更加无障碍。该模型的应用场景广泛，期待其在实际使用中的表现。