随着高质量的公共网络语料库日益匮乏,干净的长上下文文档成为大型语言模型(LLM)训练数据的稀缺且昂贵的来源。现有的长上下文语料库通常是专有的、难以获取的,或是合成生成的,且往往集中于编程等狭窄领域。我们介绍了斯坦福EDGAR文件数据集(SEFD),这是对SEC文件的开放重构,以布局忠实的MultiMarkdown格式进行金融语言建模和评估。
SEFD使审计的财务报表、风险披露、所有权报告、会计注释和影响市场事件的文件可用作长上下文预训练数据,并为金融推理、预测、合规和文档理解提供基础。生成的语料库具有高效的token使用率,模型就绪,并且与Common Crawl衍生语料库的重叠率低于0.1%。我们发布了SEFD-v1,这是152B-token的初始公共快照,并提供了一个更大18.5M文件档案(估计550B tokens)的语料库级分析。
此外,我们还推出了两个基于SEFD的基准:EDGAR-Forecast,评估模型知识截止后基于文件的数值预测;EDGAR-OCR,评估复杂财务表格的转录能力。
博主点评: 斯坦福EDGAR文件数据集的发布为金融领域的语言模型训练提供了新的机遇,具有布局忠实和高效token使用的特点,使得模型在处理复杂的财务信息时更加精准。该数据集的低重叠率保证了其独特性,值得关注。