今天,我们推出了Gemini 3.1 Flash Live,这是迄今为止我们最高质量的音频和语音模型。它提供了下一代语音优先AI所需的速度和自然节奏,为开发者、企业和普通用户带来了更直观的体验。
主要特点
- 实时对话能力提升:Gemini 3.1 Flash Live在响应时间和自然对话节奏上大幅提升,支持开发者通过Gemini Live API在Google AI Studio中访问,企业则可以在Gemini Enterprise中使用。
- 复杂任务的可靠执行:在ComplexFuncBench Audio基准测试中,3.1 Flash Live以90.8%的得分领先于前一版本,在Scale AI的Audio MultiChallenge中也表现优异,得分为36.1%。
- 改善音调理解:该模型能够更好地识别声调、语速等声学细微差别,能够动态调整对用户情绪(如挫折或困惑)的反应。
- 多语言支持:Gemini Live和Search Live模型支持超过200个国家和地区的实时多模态对话,用户可以用自己首选的语言进行交流。
- 水印技术:所有3.1 Flash Live生成的音频都带有SynthID水印,便于检测AI生成内容,从而防止信息误导。
Gemini 3.1 Flash Live的推出标志着音频AI在自然和可靠性方面的新进展,期待开发者与用户的互动与创造。
博主点评: Gemini 3.1 Flash Live的推出不仅提升了音频AI的自然性和反应速度,更为开发者提供了强大的工具来构建复杂的语音代理。这一进步在多语言支持和信息安全方面也做出了积极贡献,值得行业密切关注。