在快速发展的大型语言模型(LLMs)领域,解码器单一架构备受关注,但经典的编码-解码架构,如T5(文本到文本转移变换器),在许多实际应用中依然流行。编码-解码模型在摘要、翻译、问答等任务中表现出色,因其高推理效率和丰富的编码表示能力。今天,我们推出T5Gemma,一个新系列的编码-解码LLM,通过一种称为适应的方法,将预训练的解码器模型转换为编码-解码架构。T5Gemma基于Gemma 2框架,包括经过适应的Gemma 2 2B和9B模型,以及一组新训练的T5大小模型(Small、Base、Large和XL)。
在T5Gemma中,我们探讨了一个问题:能否基于预训练的解码器模型构建顶级的编码-解码模型?我们通过模型适应技术回答了这个问题。其核心思想是使用预训练的解码器模型的权重初始化编码-解码模型的参数,然后通过UL2或PrefixLM基础的预训练进一步适应。该适应方法高度灵活,允许创造性地组合模型大小。
我们的实验表明,T5Gemma模型在多个基准测试中,性能与解码器单一的Gemma模型相当或更优,且在质量-推理效率的帕累托前沿几乎占据主导地位。例如,T5Gemma 9B-9B在GSM8K(数学推理)中提供了明确的胜利,准确度高于Gemma 2 9B,但延迟相似。更令人印象深刻的是,T5Gemma 9B-2B在准确性上显著提升,且延迟几乎与更小的Gemma 2 2B模型相同。
此外,T5Gemma在复杂任务上的表现也很出色,经过指令调优后,9B-9B模型在GSM8K上的得分比Gemma 2 9B高出9分,在DROP(阅读理解)上高出4分。这表明,经过适应的编码-解码架构有潜力创建更强大的基础模型。
我们很高兴推出T5Gemma检查点,包括T5大小模型(Small、Base、Large和XL),Gemma 2基础模型(2B和9B),以及多种训练目标的模型。希望这些检查点为研究和开发提供有价值的资源。
博主点评: T5Gemma的推出标志着编码-解码模型在大型语言模型领域的又一突破,通过适应技术,结合了预训练的解码器模型的优势,展现出更强的性能和灵活性,值得关注与探索。它不仅为研究者提供了新的工具,也为实际应用开辟了新的可能性。