[AI学术] 法律AI的信任构建：Typed Hallucination审计与多代理辩论框架的创新应用

摘要

在法律工作流中部署的AI系统，其幻觉发生率约为52%。然而，这一平均值掩盖了错误的集中位置及其方向，使合规官无法获得可操作的信号以确保可信的部署。我们提出了LegalHalluLens，一个审计框架，包含三个组件：

类型幻觉档案：针对四种法律相关索赔类别（数值、时间、义务/权益、事实）在CUAD数据集上建立的档案。
风险方向指数（RDI）：将遗漏与发明偏差简化为一个可与部署相比较的标量。
类型辩论管道：针对幅度和方向进行校准的辩论流程。

通过对510份合同及249,252个条款级实例的测量，我们发现义务/数值与时间索赔之间存在约38-40个百分点的模型内部差距，而这一差距在汇总报告中被隐藏。同时，我们展示了两个系统在52%的匹配率下可以拥有相反的RDI。辩论管道减少了45%的虚假检测，且各类别收益与诊断相匹配，证明了其在商业API中的有效性，同时其背后的活跃参数仅为40亿。

类型档案和RDI揭示了汇总指标隐藏的失败模式。此外，这些诊断作为多代理辩论管道的校准输入，其中怀疑者的挑战和针对测得失败模式的不对称门控表现优于通用调优的辩论。该框架支持面向方向的采购、责任追究及法律AI的代理设计，使其在实际应用中更为可靠。

博主点评： LegalHalluLens框架通过细致的幻觉分析和多代理辩论，提升了法律AI的透明度与信任度，尤其是其提出的RDI为合规监测提供了新的思路，具有重要的实践意义和应用潜力。