NeFut Logo NeFut
EN 管理员登录

[AI学术] 大型语言模型在失语症话语中识别正确信息单元的可靠性研究

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #LLM

在失语症的话语评估中,正确信息单元(CIUs)是至关重要的,因为它们量化了交际信息的丰富性,而不仅仅是语言形式。然而,CIU评分耗时且需要训练有素的评估者。本研究考察了经过指令调优的大型语言模型(LLMs)是否能够可靠地从失语症话语转录中执行标记级别的CIU分类。

研究使用Cat Rescue刺激引发的16个图片描述转录,按照Nicholas和Brookshire(1993)的标准进行了CIU状态的注释。样本涵盖了四个严重程度层次:控制组、轻度、中度和重度失语症。研究对四个公开可用的指令调优LLMs进行了基准测试,采用零-shot和两个few-shot提示条件,跨五个分层随机种子进行评估。

性能通过准确率、精确率、召回率、F1得分和Cohen的kappa与人类共识标签进行比较。结果表明,零-shot提示在各模型中均不够充分。相反,few-shot提示显著提高了性能,并为三种可行模型产生了竞争力的结果。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均few-shot F1得分在0.776到0.817之间,且固定全局和逐块局部示例选择之间没有显著差异。

Phi-3-mini则表现不稳定,未能产生可靠的性能。可行模型显示出高召回率但较低的精确率,表明系统性地将标记过度分类为CIUs。性能也因话语严重程度而异,在重度失语症中结果最弱。尽管few-shot LLM提示能够支持自动化CIU识别,而无需基于梯度的任务训练,但与人类注释的协议仍不足以实现完全自主使用。这些发现支持基于LLM的CIU评分作为话语评估系统中一种有前景的人机协作组件。

博主点评: 本研究揭示了大型语言模型在失语症话语分析中的潜力,尽管当前的模型在准确性上仍有待提高,尤其是在重度失语症的情况下。未来的研究可以集中于进一步优化模型的调优策略,以实现更高的CIU识别精度。

原文链接: https://arxiv.org/abs/2606.15696

[h] 返回首页