在过去几个月,Gemma家族的开放模型经历了令人兴奋的时刻。我们推出了Gemma 3和Gemma 3 QAT,提供了单一云和桌面加速器的领先性能。接着,我们宣布全面发布Gemma 3n,这是一种以移动为先的架构,将强大的实时多模态AI直接带到边缘设备。
今天,我们向Gemma 3工具包中添加了一种新工具:Gemma 3 270M,这是一个紧凑型的、拥有2.7亿参数的模型,旨在进行任务特定的微调,具备强大的指令跟随和文本结构能力。
Gemma 3 270M的核心能力
- 紧凑且强大的架构:模型总共有2.7亿参数,其中1.7亿是由于大词汇量而产生的嵌入参数,1亿用于我们的变换器块。256k的词汇量使模型能够处理特定和稀有的标记,成为进一步在特定领域和语言中微调的强大基础模型。
- 极高的能效:Gemma 3 270M的一个关键优势是其低功耗。内部测试显示,使用INT4量化的模型在Pixel 9 Pro SoC上仅消耗0.75%的电池电量,经过25次对话。
- 指令跟随:与预训练检查点一起发布的指令调优模型,虽然不适用于复杂对话用例,但能够很好地遵循一般指令。
- 生产就绪的量化:提供量化感知训练(QAT)检查点,确保在资源受限设备上以INT4精度运行模型时性能损失最小。
选择Gemma 3 270M的时机
- 你有高频率、明确定义的任务。
- 你需要快速迭代和部署。
- 你需要确保用户隐私。
- 你希望构建一组专门的任务模型。
我们希望尽可能简化将Gemma 3 270M转变为自定义解决方案的过程。它建立在Gemma 3模型的同一架构上,提供快速上手的指南。下载模型、尝试模型和开始微调都变得简单。
随着Gemma 3 270M的发布,我们赋能开发者构建更智能、更快速、更高效的AI解决方案。期待看到你们创造的专门模型!
博主点评: Gemma 3 270M的发布标志着小型、专用AI模型在高效能和低功耗之间取得了理想的平衡,为开发者提供了一个极具潜力的工具,尤其在资源受限的环境中更显其价值。其强大的指令跟随能力和灵活的微调选项,无疑将推动更多创新应用的实现。