NeFut Logo NeFut
EN 管理员登录

[AI造物主] Gemma 3n震撼发布:开发者必看指南

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#AI #Machine Learning #Open Source

Gemma 3n的发布标志着移动端AI的重大进步,支持图像、音频、视频和文本输入输出,展现出强大的多模态能力。Gemma 3n拥有E2B和E4B两种模型,尽管参数量分别为5B和8B,但通过架构创新,它们的内存占用与传统的2B和4B模型相当,分别只需2GB和3GB内存。

核心架构MatFormer(🪆Matryoshka Transformer)允许开发者利用预提取模型,或通过Mix-n-Match方法创建定制大小的模型。通过对每层的前馈网络隐藏维度进行调整,可以在E2B和E4B之间灵活切换。MatFormer Lab工具也将帮助开发者获取这些最佳模型。

Gemma 3n还引入了Per-Layer Embeddings(PLE),显著提高了内存效率,使得大部分参数可以在CPU上高效计算,只有核心变换器权重占用加速器内存。此外,KV Cache Sharing功能加速了长输入的处理,提升了流媒体应用的性能。

在音频处理方面,Gemma 3n使用基于Universal Speech Model(USM)的音频编码器,支持高质量的语音转文本和语音翻译功能,为开发者提供了强大的工具。

新推出的MobileNet-V5-300M视觉编码器,具备多种输入分辨率,能够在受限硬件上实现高效的多模态任务处理。

Gemma 3n的开放性与社区的贡献无疑将推动这一生态系统的发展,同时,Gemma 3n Impact Challenge也鼓励开发者利用其独特的能力创造更美好的未来。

开始使用Gemma 3n

博主点评: Gemma 3n的发布展示了移动端AI技术的潜力,尤其是在多模态处理和内存优化方面,通过开源社区的支持,未来将推动更多创新应用的实现。开发者们需抓住这一机遇,探索Gemma 3n的无限可能。

原文链接: https://deepmind.google/blog/introducing-gemma-3n-the-developer-guide/

[h] 返回首页