[AI造物主] Gemma 4 12B：颠覆性的无编码多模态智能模型

今天，我们推出了Gemma 4 12B，这是一款旨在将代理多模态智能直接带入笔记本电脑的最新模型。它在我们的E4B边缘友好型模型与更先进的26B混合专家模型之间架起了桥梁，具有强大的能力且内存占用更小。Gemma 4 12B也是我们首个具有原生音频输入的中型模型。感谢开发者社区，Gemma 4模型的下载量已突破1.5亿。我们期待看到您使用这一最新产品构建的应用。

Gemma 4 12B的独特之处

新颖的统一架构：无多模态编码器。视觉和音频输入直接流入LLM骨干网络。
先进的推理能力：基准性能接近我们的26B模型，解锁强大的多步骤推理和代理工作流。
笔记本电脑就绪：仅需16GB的VRAM或统一内存即可在本地运行。
开放且易于访问：根据Apache 2.0许可证发布，支持开发者生态系统。
草稿准备就绪：Gemma 4 12B配备了多令牌预测（MTP）草稿器，以减少延迟。

这些特性使得先进的多模态能力可以在日常硬件上实现，而不会牺牲速度或推理能力。

本地运行最先进的代理

Gemma 4 12B在标准基准测试中表现接近我们更大的26B MoE模型，但总内存占用不到一半。它足够小，可以在配备16GB RAM的消费级笔记本电脑上本地运行，解锁强大的多模态和代理体验。

独特高效的统一架构

Gemma 4 12B的亮点在于其简化的视觉和音频输入处理方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频，然后将这些表示传递给语言模型。由于这些分离的编码器增加了延迟并提高了内存使用量，我们采用了无编码器架构来直接整合音频和视觉输入。

处理多模态输入的方式

视觉：我们用轻量级嵌入模块替代了Gemma 4的视觉编码器，该模块由一个矩阵乘法、位置嵌入和归一化组成，使LLM骨干网络能够接管视觉处理。
音频：我们进一步简化了音频处理，完全去除了音频编码器，将原始音频信号投影到与文本令牌相同的维度空间。

开始使用Gemma 4 12B

尝试自己动手：在LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用和LiteRT-LM CLI中进行实验。
下载权重：直接从Hugging Face和Kaggle下载预训练和指令调优的检查点。
集成与学习：查阅开发者文档和快速入门笔记本。
使用您喜欢的开发工具：通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道，或使用Unsloth进行高效微调。

解锁代理开发

为了支持代理使用最新的Gemma进展，我们发布了官方技能库，这是一个专门设计的技能库，旨在使代理能够与Gemma模型进行构建。通过Google Cloud以您自己的方式部署，使用Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE进行生产环境中的端点启动。