[AI学术] 破解语言障碍：不可翻译性操作化本体的研究

不可翻译性是指在语言间无法直接保留意义的情况，这在语言学中已有深入研究，但在自然语言处理（NLP）领域却相对缺乏探索。随着机器翻译（MT）系统在标准基准测试中的不断进步，它们在不可翻译性案例中的局限性越来越明显，这些案例无法简化为一对一的等价关系。我们提出了一种结构化的不可翻译性本体，并制定了补偿策略的分类，这些策略是针对在这些不可翻译的情况下传达意义的特定技术。

我们将这一框架操作化为一个多语言不可翻译句子的数据集，并配以基于策略的翻译，从而实现对翻译行为的控制分析。初步的人类偏好研究表明，翻译质量依赖于所使用的策略，其中对包括解释性上下文的输出（称为注释补偿策略）表现出一致的偏好。我们的框架和数据集为研究和建模策略导向的机器翻译提供了基础。