最近大型语言模型(LLMs)的进展使得高质量散文的生成成为可能,但这些模型是否能够生成多样化输出仍然存在争议。本文通过叙事相似性框架探讨了LLM生成故事的多样性。我们采用对比框架,使用来自 r/WritingPrompts 的人类创作故事和提示的数据集,收集了10个代表性LLM的叙事相似性判断,结合了人类评估和三种不同的自动注释方法。
我们的研究结果揭示了一个一致的趋势:LLM生成的叙事彼此之间的相似性普遍高于人类创作的故事。特别是,我们展示了前沿模型趋向于生成一种“平均”的通用叙事,这种叙事在某种程度上接近个别的人类故事,但缺乏人类作者的集体多样性。最后,我们还表明,包括负提示和温度缩放在内的常见缓解策略未能有效解决这种同质化现象。
博主点评: 这一研究揭示了大型语言模型在创造力方面的局限性,尽管它们能够生成流畅的文本,但在叙事多样性上却显得匮乏。这提醒了我们在使用这些模型时,需要更深入地考虑其输出的独特性与创新性。