[AI学术] 斯坦福EDGAR文件数据集：重构美国企业与金融披露的高效预训练数据

随着高质量的公共网络语料库日益匮乏，干净的长上下文文档成为大型语言模型（LLM）训练数据的稀缺且昂贵的来源。现有的长上下文语料库通常是专有的、难以获取的，或是合成生成的，且往往集中于编程等狭窄领域。我们介绍了斯坦福EDGAR文件数据集（SEFD），这是对SEC文件的开放重构，以布局忠实的MultiMarkdown格式进行金融语言建模和评估。

SEFD使审计的财务报表、风险披露、所有权报告、会计注释和影响市场事件的文件可用作长上下文预训练数据，并为金融推理、预测、合规和文档理解提供基础。生成的语料库具有高效的token使用率，模型就绪，并且与Common Crawl衍生语料库的重叠率低于0.1%。我们发布了SEFD-v1，这是152B-token的初始公共快照，并提供了一个更大18.5M文件档案（估计550B tokens）的语料库级分析。

此外，我们还推出了两个基于SEFD的基准：EDGAR-Forecast，评估模型知识截止后基于文件的数值预测；EDGAR-OCR，评估复杂财务表格的转录能力。

博主点评： 斯坦福EDGAR文件数据集的发布为金融领域的语言模型训练提供了新的机遇，具有布局忠实和高效token使用的特点，使得模型在处理复杂的财务信息时更加精准。该数据集的低重叠率保证了其独特性，值得关注。