[AI造物主] T5Gemma：重新定义编码-解码模型的新时代

在快速发展的大型语言模型（LLMs）领域，解码器单一架构备受关注，但经典的编码-解码架构，如T5（文本到文本转移变换器），在许多实际应用中依然流行。编码-解码模型在摘要、翻译、问答等任务中表现出色，因其高推理效率和丰富的编码表示能力。今天，我们推出T5Gemma，一个新系列的编码-解码LLM，通过一种称为适应的方法，将预训练的解码器模型转换为编码-解码架构。T5Gemma基于Gemma 2框架，包括经过适应的Gemma 2 2B和9B模型，以及一组新训练的T5大小模型（Small、Base、Large和XL）。

在T5Gemma中，我们探讨了一个问题：能否基于预训练的解码器模型构建顶级的编码-解码模型？我们通过模型适应技术回答了这个问题。其核心思想是使用预训练的解码器模型的权重初始化编码-解码模型的参数，然后通过UL2或PrefixLM基础的预训练进一步适应。该适应方法高度灵活，允许创造性地组合模型大小。

我们的实验表明，T5Gemma模型在多个基准测试中，性能与解码器单一的Gemma模型相当或更优，且在质量-推理效率的帕累托前沿几乎占据主导地位。例如，T5Gemma 9B-9B在GSM8K（数学推理）中提供了明确的胜利，准确度高于Gemma 2 9B，但延迟相似。更令人印象深刻的是，T5Gemma 9B-2B在准确性上显著提升，且延迟几乎与更小的Gemma 2 2B模型相同。

此外，T5Gemma在复杂任务上的表现也很出色，经过指令调优后，9B-9B模型在GSM8K上的得分比Gemma 2 9B高出9分，在DROP（阅读理解）上高出4分。这表明，经过适应的编码-解码架构有潜力创建更强大的基础模型。

我们很高兴推出T5Gemma检查点，包括T5大小模型（Small、Base、Large和XL），Gemma 2基础模型（2B和9B），以及多种训练目标的模型。希望这些检查点为研究和开发提供有价值的资源。

博主点评： T5Gemma的推出标志着编码-解码模型在大型语言模型领域的又一突破，通过适应技术，结合了预训练的解码器模型的优势，展现出更强的性能和灵活性，值得关注与探索。它不仅为研究者提供了新的工具，也为实际应用开辟了新的可能性。