在长达200至800集的长篇连载音频剧中,前沿的大型语言模型(LLMs)表现不佳。本文对21个模型进行了基准测试,涵盖经典、微调、开放前沿、封闭前沿和推理层次,使用统一的结构叙事指标集进行评估。所有封闭前沿系统的情节节拍 F1 分数在 [0.78, 0.81] 范围内饱和,并在视野 h=200 时下降约 -0.20 F1。
我们引入了 NarrativeWorldBench,这是一个开放基准,包含九个叙事结构指标,评估视野 h 在 {10, 20, 50, 100, 200} 的表现,并在四种印地语系语言(印地语、泰米尔语、泰卢固语和马拉地语)中进行跨语言评估。我们提出了 N-VSSM(叙事变分状态空间模型),该模型通过 Mamba-2 骨干网维护一个结构化的 256 维潜在世界状态,跨越 200 多集,具有事件条件后验和 8B 解码器。N-VSSM 在所有视野下的情节节拍 F1 达到 0.84,计算量比封闭前沿低 4 倍。一个学习的文化转移函数使跨语言的保真度提升了 +0.20 至 +0.23 Likert 点。在一项涉及 12 名专业作者、240 次试验的内部研究中,N-VSSM 在长弧一致性上优于 Claude Opus 4.5 的概率达到 71%,并在可控性上评分高出 +1.3 Likert 点。
博主点评: 该研究在长篇叙事生成领域开辟了新的视角,N-VSSM 模型的引入不仅提高了跨语言的表现,还展示了其在长时程一致性上的优势,值得关注其在创意写作中的潜在应用。尤其是对文化转移函数的探索,为多语言生成提供了新的思路。