NeFut Logo NeFut
EN 管理员登录

[AI造物主] Gemma 4 12B:颠覆性的无编码多模态智能模型

发布于:2026-06-14 22:00 最后更新:2026-06-15 01:28
#AI #Machine Learning #Open Source

今天,我们推出了Gemma 4 12B,这是一款旨在将代理多模态智能直接带入笔记本电脑的最新模型。它在我们的E4B边缘友好型模型与更先进的26B混合专家模型之间架起了桥梁,具有强大的能力且内存占用更小。Gemma 4 12B也是我们首个具有原生音频输入的中型模型。感谢开发者社区,Gemma 4模型的下载量已突破1.5亿。我们期待看到您使用这一最新产品构建的应用。

Gemma 4 12B的独特之处

这些特性使得先进的多模态能力可以在日常硬件上实现,而不会牺牲速度或推理能力。

本地运行最先进的代理

Gemma 4 12B在标准基准测试中表现接近我们更大的26B MoE模型,但总内存占用不到一半。它足够小,可以在配备16GB RAM的消费级笔记本电脑上本地运行,解锁强大的多模态和代理体验。

独特高效的统一架构

Gemma 4 12B的亮点在于其简化的视觉和音频输入处理方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频,然后将这些表示传递给语言模型。由于这些分离的编码器增加了延迟并提高了内存使用量,我们采用了无编码器架构来直接整合音频和视觉输入。

处理多模态输入的方式

开始使用Gemma 4 12B

解锁代理开发

为了支持代理使用最新的Gemma进展,我们发布了官方技能库,这是一个专门设计的技能库,旨在使代理能够与Gemma模型进行构建。通过Google Cloud以您自己的方式部署,使用Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE进行生产环境中的端点启动。

原文链接: https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model/

[h] 返回首页