今天,我们推出了Gemma 4 12B,这是一款旨在将代理多模态智能直接带入笔记本电脑的最新模型。它在我们的E4B边缘友好型模型与更先进的26B混合专家模型之间架起了桥梁,具有强大的能力且内存占用更小。Gemma 4 12B也是我们首个具有原生音频输入的中型模型。感谢开发者社区,Gemma 4模型的下载量已突破1.5亿。我们期待看到您使用这一最新产品构建的应用。
Gemma 4 12B的独特之处
- 新颖的统一架构:无多模态编码器。视觉和音频输入直接流入LLM骨干网络。
- 先进的推理能力:基准性能接近我们的26B模型,解锁强大的多步骤推理和代理工作流。
- 笔记本电脑就绪:仅需16GB的VRAM或统一内存即可在本地运行。
- 开放且易于访问:根据Apache 2.0许可证发布,支持开发者生态系统。
- 草稿准备就绪:Gemma 4 12B配备了多令牌预测(MTP)草稿器,以减少延迟。
这些特性使得先进的多模态能力可以在日常硬件上实现,而不会牺牲速度或推理能力。
本地运行最先进的代理
Gemma 4 12B在标准基准测试中表现接近我们更大的26B MoE模型,但总内存占用不到一半。它足够小,可以在配备16GB RAM的消费级笔记本电脑上本地运行,解锁强大的多模态和代理体验。
独特高效的统一架构
Gemma 4 12B的亮点在于其简化的视觉和音频输入处理方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频,然后将这些表示传递给语言模型。由于这些分离的编码器增加了延迟并提高了内存使用量,我们采用了无编码器架构来直接整合音频和视觉输入。
处理多模态输入的方式
- 视觉:我们用轻量级嵌入模块替代了Gemma 4的视觉编码器,该模块由一个矩阵乘法、位置嵌入和归一化组成,使LLM骨干网络能够接管视觉处理。
- 音频:我们进一步简化了音频处理,完全去除了音频编码器,将原始音频信号投影到与文本令牌相同的维度空间。
开始使用Gemma 4 12B
- 尝试自己动手:在LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用和LiteRT-LM CLI中进行实验。
- 下载权重:直接从Hugging Face和Kaggle下载预训练和指令调优的检查点。
- 集成与学习:查阅开发者文档和快速入门笔记本。
- 使用您喜欢的开发工具:通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道,或使用Unsloth进行高效微调。
解锁代理开发
为了支持代理使用最新的Gemma进展,我们发布了官方技能库,这是一个专门设计的技能库,旨在使代理能够与Gemma模型进行构建。通过Google Cloud以您自己的方式部署,使用Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE进行生产环境中的端点启动。