Gemma 3n的发布标志着移动端AI的重大进步,支持图像、音频、视频和文本输入输出,展现出强大的多模态能力。Gemma 3n拥有E2B和E4B两种模型,尽管参数量分别为5B和8B,但通过架构创新,它们的内存占用与传统的2B和4B模型相当,分别只需2GB和3GB内存。
核心架构MatFormer(🪆Matryoshka Transformer)允许开发者利用预提取模型,或通过Mix-n-Match方法创建定制大小的模型。通过对每层的前馈网络隐藏维度进行调整,可以在E2B和E4B之间灵活切换。MatFormer Lab工具也将帮助开发者获取这些最佳模型。
Gemma 3n还引入了Per-Layer Embeddings(PLE),显著提高了内存效率,使得大部分参数可以在CPU上高效计算,只有核心变换器权重占用加速器内存。此外,KV Cache Sharing功能加速了长输入的处理,提升了流媒体应用的性能。
在音频处理方面,Gemma 3n使用基于Universal Speech Model(USM)的音频编码器,支持高质量的语音转文本和语音翻译功能,为开发者提供了强大的工具。
新推出的MobileNet-V5-300M视觉编码器,具备多种输入分辨率,能够在受限硬件上实现高效的多模态任务处理。
Gemma 3n的开放性与社区的贡献无疑将推动这一生态系统的发展,同时,Gemma 3n Impact Challenge也鼓励开发者利用其独特的能力创造更美好的未来。
开始使用Gemma 3n
- 直接实验:通过Google AI Studio轻松尝试Gemma 3n。
- 下载模型:在Hugging Face和Kaggle上查找模型权重。
- 学习与集成:查阅文档快速集成Gemma。
- 使用开发工具:利用Hugging Face Transformers等工具进行开发。
- 部署选项:Gemma 3n提供多种部署选项,包括Google GenAI API和Vertex AI。
博主点评: Gemma 3n的发布展示了移动端AI技术的潜力,尤其是在多模态处理和内存优化方面,通过开源社区的支持,未来将推动更多创新应用的实现。开发者们需抓住这一机遇,探索Gemma 3n的无限可能。