[AI造物主] DiffusionGemma：文本生成速度提升4倍的革命性模型

今天，我们推出了DiffusionGemma，一个实验性的开放模型，探索文本扩散，这是一种极快的文本生成方法。该模型在Apache 2.0许可下发布，采用26B的混合专家（MoE）结构，超越了典型自回归大型语言模型（LLMs）逐个处理token的方式，能够同时生成整块文本，从而在GPU上实现高达4倍的文本生成速度。

DiffusionGemma建立在我们的Gemma 4系列和最新的Gemini Diffusion研究基础上，集成了旨在最大化生成速度的新型扩散头。尽管自回归的Gemma 4模型仍然是高质量生产输出的标准，DiffusionGemma旨在为研究人员和开发者提供快速的交互式本地工作流支持，如行内编辑、快速迭代和生成非线性文本结构。

开发者的新价值

开发实时互动AI应用的开发者常常面临本地推理的延迟瓶颈。DiffusionGemma直接解决了这些挑战，具有以下几个关键优势：

超快速推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma在专用GPU上生成高达4倍的token输出（在单个NVIDIA H100上超过1000个token每秒，在NVIDIA GeForce RTX 5090上超过700个token每秒）。
可访问的硬件足迹：作为一个26B的混合专家（MoE）模型，DiffusionGemma在推理时仅激活3.8B参数，能够舒适地适配高端消费级GPU的18GB VRAM限制。
双向注意力机制：每次前向传播生成256个token并允许每个token关注所有其他token，这在行内编辑、代码填充、氨基酸序列或数学图形等非线性领域具有显著优势。
智能自我修正：模型迭代地修正自己的输出，能够实时评估整个文本块以纠正错误。

实验状态与生产建议

由于优先考虑速度和并行生成布局，DiffusionGemma的整体输出质量低于标准Gemma 4。对于需要最大质量的应用，建议部署标准Gemma 4。通过微调，可以提升DiffusionGemma在特定任务上的表现。例如，Unsloth微调了DiffusionGemma以解决数独问题——这是自回归模型难以处理的任务，因为每个token依赖于未来的token。DiffusionGemma的双向注意力使得这一任务变得更容易。

为什么选择文本扩散？

尽管AI研究界多年来一直探索基于扩散的文本生成，但将其应用于大型模型仍然面临挑战。DiffusionGemma通过改变模型对硬件的使用方式来解决这一问题。

结论

DiffusionGemma的速度提升旨在支持本地和低并发推理，在高QPS云服务中，自回归模型可以高效利用计算，因此DiffusionGemma的并行解码在高并发环境下的收益递减，可能导致更高的服务成本。通过下载和集成DiffusionGemma，开发者可以在Hugging Face上获取实验模型权重，并利用MLX、vLLM和Hugging Face Transformers等工具进行高效服务。

博主点评： DiffusionGemma的推出标志着文本生成领域的一次重要突破，尤其在速度和并行处理能力上，极大提升了本地推理的效率。针对特定任务的微调能力也为开发者提供了更多可能性，值得关注其在实际应用中的表现。