本文从一个本地化译者的角度阐述了对于机器翻译的看法。
1. 口语文体。因机器翻译 (MT) 接受的训练数据库绝大部分是书面文,因此对口语化文本的处理效果欠佳。以访谈字幕为例,MT面临的挑战有很多。
首先是字幕文本 (script) 是根据时间轴分行显示的,一个句子可能拆分为两行甚至多行显示,上下文衔接性较差,MT引擎处理起来,仍将单行作为一个句子进行翻译,导致译文含义混乱,前后术语不一致。另外是说话者常带有语气词,嗯…啊..之类的,英文中此类无实际意义的filler words更多,而MT倾向于把它们都翻译出来,显得特别有“翻译腔”。并且,说话者常常有表达不连贯的现象,即一开始是在说A,下面开始说B,然后又回到A。话题穿插,会让MT混淆主旨,译文准确度和可读性欠佳。更为严重的情况是,说话者会有口误,但MT不会根据上下文进行区分,将口误按照正常句子翻译出来,会严重影响准确性。
口语表达不规范也是一个棘手的问题,有时人类译者甚至也会感到困惑,而机器翻译出错的概率更大。对于说话者使用的修辞手法,以及特定文化背景下的特殊含义,譬如双关、隐喻、“抖机灵”式的幽默,MT引擎会直接失灵。
2. 源语言质量较差。我们知道,生成式AI的回答质量直接取决于prompt的质量,MT也与之类似。原文质量越好,机器翻译质量越好。此处所指的“质量好”,指的是语言结构简单,句意明确,语法规范。MT通常不会理解错这类原文,甚至其处理效率比人类译者更高,譬如简单的技术手册、新闻稿、通用文本。MT失效的情况尤其适用于原文作者为非母语人士的情况,如作者使用的是“中式英语”、“印度英语”,某些词汇和句型掌握不佳,MT很可能会误解作者的意图。例如,非英语国家的跨国公司通常会以英语编制各种文档和培训资料,但其作者又不是以英语为母语,因此他们编写的材料某些地方会让人难以理解。
3. 无上下文。MT引擎已经过很长时间的更新迭代,原本逐字逐句的方法已被淘汰,现在主流技术是采用神经网络。生成式AI的文本创作能力极强,MT似乎也从中受益,译文显得更流畅,更像“人话”。因此,MT处理段落的能力已经实现了很大的提升(除了偶尔仍会出现“机器幻觉”现象),似乎具备某种“理解”能力。相比之下,对于上下文信息不足的内容,MT可能会误解原文含义,无法很好地处理“一词多义”的问题。
4. 创译 (transcreation)。过去人们认为,机器翻译是“死板的”,毫无创意。实际上,经过这么多年的发展,机器翻译实际上可以提供一定程度的“创意”,这也要得益于MT引擎也在与时俱进,吸收更新、更完善的语料。(举个最近发现的例子,historically:过去MT结果为”历史上“,现在MT结果为”历来“。)实际操作中,我们会发现,MT产出的译文并不是那么僵硬,相反,它也会使用“高级”词汇,甚至也会使用成语。联想到AI都能作诗,这一点也就不足为奇了。但值得一提的是,即便如此,MT的译文依然是基于真实世界的样本,类似于“照葫芦画瓢”,离人类的创意水平还有一定的距离。对于奢侈品广告、高端产品/服务文案这类项目,MT与才华横溢的人类译者尚有很大的差距。不过,MT足以应对一般的市场类材料,这才是人类译者最应该引起警觉的问题。