[AI学术] NarrativeWorldBench：突破性基准与长时程共创音频剧的潜在世界模型

在长达200至800集的长篇连载音频剧中，前沿的大型语言模型（LLMs）表现不佳。本文对21个模型进行了基准测试，涵盖经典、微调、开放前沿、封闭前沿和推理层次，使用统一的结构叙事指标集进行评估。所有封闭前沿系统的情节节拍 F1 分数在 [0.78, 0.81] 范围内饱和，并在视野 h=200 时下降约 -0.20 F1。

我们引入了 NarrativeWorldBench，这是一个开放基准，包含九个叙事结构指标，评估视野 h 在 {10, 20, 50, 100, 200} 的表现，并在四种印地语系语言（印地语、泰米尔语、泰卢固语和马拉地语）中进行跨语言评估。我们提出了 N-VSSM（叙事变分状态空间模型），该模型通过 Mamba-2 骨干网维护一个结构化的 256 维潜在世界状态，跨越 200 多集，具有事件条件后验和 8B 解码器。N-VSSM 在所有视野下的情节节拍 F1 达到 0.84，计算量比封闭前沿低 4 倍。一个学习的文化转移函数使跨语言的保真度提升了 +0.20 至 +0.23 Likert 点。在一项涉及 12 名专业作者、240 次试验的内部研究中，N-VSSM 在长弧一致性上优于 Claude Opus 4.5 的概率达到 71%，并在可控性上评分高出 +1.3 Likert 点。

博主点评： 该研究在长篇叙事生成领域开辟了新的视角，N-VSSM 模型的引入不仅提高了跨语言的表现，还展示了其在长时程一致性上的优势，值得关注其在创意写作中的潜在应用。尤其是对文化转移函数的探索，为多语言生成提供了新的思路。