不可翻译性是指在语言间无法直接保留意义的情况,这在语言学中已有深入研究,但在自然语言处理(NLP)领域却相对缺乏探索。随着机器翻译(MT)系统在标准基准测试中的不断进步,它们在不可翻译性案例中的局限性越来越明显,这些案例无法简化为一对一的等价关系。我们提出了一种结构化的不可翻译性本体,并制定了补偿策略的分类,这些策略是针对在这些不可翻译的情况下传达意义的特定技术。
我们将这一框架操作化为一个多语言不可翻译句子的数据集,并配以基于策略的翻译,从而实现对翻译行为的控制分析。初步的人类偏好研究表明,翻译质量依赖于所使用的策略,其中对包括解释性上下文的输出(称为注释补偿策略)表现出一致的偏好。我们的框架和数据集为研究和建模策略导向的机器翻译提供了基础。