[AI学术] 大型语言模型在失语症话语中识别正确信息单元的可靠性研究

在失语症的话语评估中，正确信息单元（CIUs）是至关重要的，因为它们量化了交际信息的丰富性，而不仅仅是语言形式。然而，CIU评分耗时且需要训练有素的评估者。本研究考察了经过指令调优的大型语言模型（LLMs）是否能够可靠地从失语症话语转录中执行标记级别的CIU分类。

研究使用Cat Rescue刺激引发的16个图片描述转录，按照Nicholas和Brookshire（1993）的标准进行了CIU状态的注释。样本涵盖了四个严重程度层次：控制组、轻度、中度和重度失语症。研究对四个公开可用的指令调优LLMs进行了基准测试，采用零-shot和两个few-shot提示条件，跨五个分层随机种子进行评估。

性能通过准确率、精确率、召回率、F1得分和Cohen的kappa与人类共识标签进行比较。结果表明，零-shot提示在各模型中均不够充分。相反，few-shot提示显著提高了性能，并为三种可行模型产生了竞争力的结果。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均few-shot F1得分在0.776到0.817之间，且固定全局和逐块局部示例选择之间没有显著差异。

Phi-3-mini则表现不稳定，未能产生可靠的性能。可行模型显示出高召回率但较低的精确率，表明系统性地将标记过度分类为CIUs。性能也因话语严重程度而异，在重度失语症中结果最弱。尽管few-shot LLM提示能够支持自动化CIU识别，而无需基于梯度的任务训练，但与人类注释的协议仍不足以实现完全自主使用。这些发现支持基于LLM的CIU评分作为话语评估系统中一种有前景的人机协作组件。

博主点评： 本研究揭示了大型语言模型在失语症话语分析中的潜力，尽管当前的模型在准确性上仍有待提高，尤其是在重度失语症的情况下。未来的研究可以集中于进一步优化模型的调优策略，以实现更高的CIU识别精度。