今天,我们推出了DiffusionGemma,一个实验性的开放模型,探索文本扩散,这是一种极快的文本生成方法。该模型在Apache 2.0许可下发布,采用26B的混合专家(MoE)结构,超越了典型自回归大型语言模型(LLMs)逐个处理token的方式,能够同时生成整块文本,从而在GPU上实现高达4倍的文本生成速度。
DiffusionGemma建立在我们的Gemma 4系列和最新的Gemini Diffusion研究基础上,集成了旨在最大化生成速度的新型扩散头。尽管自回归的Gemma 4模型仍然是高质量生产输出的标准,DiffusionGemma旨在为研究人员和开发者提供快速的交互式本地工作流支持,如行内编辑、快速迭代和生成非线性文本结构。
开发者的新价值
开发实时互动AI应用的开发者常常面临本地推理的延迟瓶颈。DiffusionGemma直接解决了这些挑战,具有以下几个关键优势:
- 超快速推理:通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma在专用GPU上生成高达4倍的token输出(在单个NVIDIA H100上超过1000个token每秒,在NVIDIA GeForce RTX 5090上超过700个token每秒)。
- 可访问的硬件足迹:作为一个26B的混合专家(MoE)模型,DiffusionGemma在推理时仅激活3.8B参数,能够舒适地适配高端消费级GPU的18GB VRAM限制。
- 双向注意力机制:每次前向传播生成256个token并允许每个token关注所有其他token,这在行内编辑、代码填充、氨基酸序列或数学图形等非线性领域具有显著优势。
- 智能自我修正:模型迭代地修正自己的输出,能够实时评估整个文本块以纠正错误。
实验状态与生产建议
由于优先考虑速度和并行生成布局,DiffusionGemma的整体输出质量低于标准Gemma 4。对于需要最大质量的应用,建议部署标准Gemma 4。通过微调,可以提升DiffusionGemma在特定任务上的表现。例如,Unsloth微调了DiffusionGemma以解决数独问题——这是自回归模型难以处理的任务,因为每个token依赖于未来的token。DiffusionGemma的双向注意力使得这一任务变得更容易。
为什么选择文本扩散?
尽管AI研究界多年来一直探索基于扩散的文本生成,但将其应用于大型模型仍然面临挑战。DiffusionGemma通过改变模型对硬件的使用方式来解决这一问题。
结论
DiffusionGemma的速度提升旨在支持本地和低并发推理,在高QPS云服务中,自回归模型可以高效利用计算,因此DiffusionGemma的并行解码在高并发环境下的收益递减,可能导致更高的服务成本。通过下载和集成DiffusionGemma,开发者可以在Hugging Face上获取实验模型权重,并利用MLX、vLLM和Hugging Face Transformers等工具进行高效服务。
博主点评: DiffusionGemma的推出标志着文本生成领域的一次重要突破,尤其在速度和并行处理能力上,极大提升了本地推理的效率。针对特定任务的微调能力也为开发者提供了更多可能性,值得关注其在实际应用中的表现。