选择翻译的未来(TAUS)

发布时间:2015-12-23  |  来源:中国翻译协会


作者:Jaap van der Meer,翻译自动化用户协会(TAUS)
译者:崔启亮,中国翻译协会本地化服务委员会(TACLSC)

      语言服务领域的技术姗姗来迟。语言服务技术将改变一切,在不远的将来,世人都能在讲自己的语言时,别人都能听明白。我们正进入融合的时代:翻译将作为一种工 具嵌入到每个应用程序、机器、标志牌和屏幕中。通过发现新市场的新客户,翻译业务将蓬勃发展。政府和民众的联系和交流将更加便捷。消费者变得更明智,可以 随时随地与他人讲话,好像从来不曾存在语言障碍。

      不要认为我在胡言乱语。这种交流尽管不完美,但是将开启交流大门,打破语言壁垒。推动翻译行业发展,不断改进技术,填补全球交流的鸿沟。

     这幅蓝图太过美妙了吧?如果相信翻译数据的力量,一切并非天方夜谭,正如我们正在做的一切。翻译数据是机器翻译技术的燃料,数据驱动引擎。引擎可能不会模仿人类的语言能力,但能用我们从未说过的语言帮助交谈。诚如尼古拉斯· 奥斯特勒所言,机器翻译将成为新的通用语。

     这是令许多翻译业内人士感到惊恐的愿景。机器翻译的试验、试用和测试已经很久了,但它从来没有通过实用的测试。自动化翻译以前被认为是乌托邦,互联 网带来言论革命后发生了变化,百万计的网民开始在搜索页面时,点击自动翻译按钮。无论译文质量多么糟糕和可笑,人们还是喜欢受其控制的实时翻译。这是一个 时代的标志:用户掌控并驾驭变革。
 


下载报告(705kb)后阅读
 

走进融合时代
翻译产业的演变如下图所示,自1980年以来,每隔十年经历一次根本变革,但任何一次都没有像我们所处的“融合”时代的变革如此剧烈。


来源: TAUS

信息内容的数量正疯长至ZB级别(1ZB=1,000,000,000,000GB),这些信息与数十亿的新用户随心所欲点击翻译内容有关。我们经 历了从20世纪出口思想形态到21世纪开放全球社会,下一个十年的语言对组合将从现在的7个源语言和60个目标语言变为200源语言和200个目标语言。 仅靠人工翻译的流程显然无法满足新时代的要求。
在当前整合时期,企业和机构忙于解救处于孤立状态的翻译功能。焦点在于将翻译融入到企业内容管理系统等应用中,帮助企业提高翻译能力,可以翻译除文 件、说明书、宣传册和软件之外的更多内容。翻译的内容要求更多更快,甚至要实时翻译,因此压力更大。创新者将拥有更多机会,利用融合工具提供以前不存在的 解决方案。(参见“变革代言人:业内人士和入侵者”的视频。)
融合的两种类型
我们强调两种互相联系的融合形式:纯技术融合和功能融合。技术融合将两个或多个技术结合起来,创造具有吸引力的新产品或服务。功能融合将功能结合起来,创造新的解决方案。
日常生活中,手机是技术和功能融合的最佳案例。手机已经变成照相机、掌上电脑和导航工具,正在开发的新应用软件数以千计,将这个简单的手持设备变成一个救生器,成为身体不可缺少的延伸部分。
在物质世界中,超市的产生是融合的一种形式。星巴克将咖啡和音乐结合起来也是很好的融合例子。在数字世界中,功能融合常常具有“发送与获取”双向交 互的特点:用户变成供应链的一部分。餐馆点评网站是典型例子,在这些网站上,用户给餐馆评出等级并分享对该餐馆的评价。服务免费,网站所有者通过广告赚 钱。
功能融合的更多创新案例为基于定位的应用(本地化的另一种形式)。用户通常在不知具体技术细节的情况下传输其精确位置,并接收到附近社区商店或餐馆的完全匹配信息,或接收到恰巧在同一街道上散步的朋友的见面邀请。
翻译行业的融合
我们可以开始想象翻译行业融合的意义。实际上,融合已经开始渗透到技术和功能中。我们已经看过语音和机器翻译技术集成的首次展示。想象一下,如果技术人员更好地运行这项技术,将会发生什么。今后可以不用手机上的小键盘:只要语音输入一种语言,就可以以另一种语言输出。
当然,翻译行业中功能融合的最佳例子是自动化翻译与搜索功能的结合。此项创新引发了此前提及的言论革命。数以百万的终端用户开始每天点击来使用实时翻译。他们不支付费用,除非想让他们查看搜索页面上广告费用的支付形式。搜索引擎的所有者决定向专业翻译人员延伸其服务。
更近一步的商业模式的融合:共享翻译数据(翻译记忆),业内专业人士接收定制(质量得到改善)的机器翻译。近期翻译行业中功能融合的另一个案例是 Duolingo:一个在线游戏化语言培训网站。用户免费培训,根据其技能水平帮助翻译句子。这种方式用户获得培训服务,同时补充了翻译数据,有助于改善 平台。
在未来十年,将看到更多功能和技术融合的新例子。融合有时只应对一个语言对、领域或细分市场,有时会应用在更广的范围。融合正在完全改变翻译行业。
翻译将很快成为渗透我们所做的各项工作的一个应用工具,将会像电和互联网一样无处不在,越来越作为人类的基本需要。未通过此翻译应用工具连接的语言 社区将努力通过汇集并共享所需翻译数据成为翻译应用工具的一部分。这就是我们所称的“病毒式效应”,加速语言对和领域的传播以及翻译应用工具功能的不断改 进。
众包,云和大数据
融合时代的其他趋势为众包、云和大数据。众包是功能融合的重要部分。Duolingo 需要数十万的用户,以使平台真正运行良好,通过投票选出最好的翻译,从而改善系统的总体性能。云是与众包连接并达到所要求的扩展性和效率的自然基础环境。 许多创新翻译解决方案将以SaaS(软件即服务)、DaaS(数据即服务)、IaaS(基础设施即服务)和PaaS(平台即服务)为特点,是基于云解决方 案的演变。隐藏在众包和云后的是大数据的神秘力量—此为最大趋势。2011 年, IBM 的超级计算机沃森(Watson)打败了益智节目“危险边缘”(Jeopardy)中最优秀的选手,成为自然语言处理的一个里程碑事件。由此证明了只要提 供足够的数据,计算机可以解释歧义、听懂笑话和隐喻。
大数据对于翻译行业的重要性不可低估。大数据将推动自动化翻译向前发展,并面对自然语言处理中机器翻译等不同领域的挑战。计算机将能够运行自动语义聚类和体裁识别流程,即计算机将识别出工业领域(如医疗和放射学)和内容类型(如说明文本或专利应用)。
大数据对机器翻译技术的持续改进和定制化至关重要。由于现代机器翻译系统涉及越来越多的平行数据,大数据技术将成为关键因素。传统数据库管理技术将达到极限而无法处理大量数据。如果计算机获得更多数据,还能够更好地进行术语挖掘。
大数据将识别出同义词、相关术语、新词、行话,并能使用平行处理工具自动生成句法分类。普通的统计翻译模式演变成带有分层(以句法或对齐为基础)体系的混合模式,允许机器翻译引擎进行长距离的重新排序,对更多长距离语言对产生更流畅准确的翻译。
翻译支持匹配新的组合内容
在融合时代,待翻译的组合内容正在进一步从文件和软件版本转化成文本片段、发布在屏幕上的声音和视频。终端用户、公众或患者将比现在有更多控制性,推动以正式的(公司、公众、法律)、社会化的、共享的、获得式以及私人信息的持续流翻译。
翻译记忆软件非常适合开发商提供的静态内容文件的更新,不适合翻译用户推动的动态内容。机器翻译技术将快速成熟,成为翻译服务行业使用的主要工具。 机器翻译平台将添加新功能,允许专业用户添加数据(客户特定或产品特定的翻译记忆、术语和目标语言文本),这些数据将几乎实时地训练和定制引擎。
机器翻译引擎的自助实时训练可用于单项工作。个人化的机器翻译相比以前为通用语言对开发的昂贵冗长的机器翻译更进了一大步,推动翻译记忆数据的需求越来越大。对于每项新工作,译者将微调引擎以查找匹配的数据,对数据的需求将永不满足。
翻译技术将把翻译行业中的企业家—翻译买家和提供方引向何处呢?
不确定的未来之计划
2010 年,翻译自动化用户协会在哥本哈根和波特兰(美国俄勒冈州)组织了一系列头脑风暴讨论会,请翻译购买方和提供方高层管理者,使用基于场景的计划方法,为不 确定的未来做计划,目标是最小化危机驱动的变化,而不是追求机会驱动的变化。参与者同意,一些驱动无可争议(内容爆炸、向多媒体和移动媒体的转变及实时交 付的趋势),但对以下三个问题的答案不确定:
1.     机器翻译是否将对翻译行业起很大的作用?
2.     是否应该担心翻译会成为免费的服务?
3.     封闭(竞争)还是开放(合作)的商业模式将会取胜?
近几年,其中的两个问题已经得出了答案。机器翻译将在翻译行业发挥重要的作用,翻译将不会免费。翻译价格有很多灵活性,但不论何种方式,用户总要支付翻译费用。第三个问题总是挥之不去。对于封闭还是开放的模式哪个会取胜,仍未有确切的答案。当前这两种模式似乎都运行良好。
开放或封闭的翻译未来
未来的翻译行业可能是封闭的(与今天差不多),也可能是开放和合作的。在未来封闭的翻译场景中,少数公司将汇集全世界的所有翻译数据,这些数据帮助 和支持全世界40000 或更多语言对的信息的快速有效翻译。大小翻译操作者—包括公司买家、政府和机构将依赖这些少数数据所有者,以保持他们的翻译引擎与各项工作一致。在今天的 翻译世界中,他们拥有或为客户管理的翻译记忆可能足够使翻译操作有效运行。但在融合时代,很难预测哪些内容,哪些领域或语言对需要翻译,新的翻译需求总是 需要新的数据。
在未来开放的翻译场景中,通过合作平台共享数据。所有翻译操作者可以平等使用数据,并可以使数据进行复用和二次开发,例如开发新的机器翻译引擎。在 未来开放的翻译场景中,行业利益相关者对内容、技术和平台的通用接口达成共识,以确保翻译工作和数据的无摩擦交换。行业利益相关者就度量和基准达成共识, 以度量和比较自动化翻译引擎并跟踪进展。
这两个场景可能都对。今天很难说哪个更有机会取胜。在两种场景中,我们要看发展的机会。除非你有非常好的机会,拥有翻译未来中可能需要的所有数据,你的发展机会才会比未来开放的翻译场景的机会更多。
三岔路口
未来两年中,翻译买家和提供方更需要做出是否开放,是否合作和共享的决定;对于自己的翻译未来做出理智的决定,不要惊讶市场的变化。我们正处在一个三岔路口,选择哪条路将很大程度地影响你的事业成功和发展。
选择未来开放的翻译场景,意味着开放共享你的翻译记忆,并说服你的客户和合作者也选择开放。翻译数据不同于翻译记忆,难于重建各种源语言文件和目标 语言文件。应当像医药行业处理人类基因数据一样看待翻译数据。每家生命科学公司、每所大学,世界上每个人都有权使用13 亿组成人类DNA 的化学碱基对的描述。每家公司可以使用人类DNA 来开发新药和新技术。以此激励创新、发展和促进人类文明。当然,如果选择共享翻译数据,有权不共享机密数据或未发布的产品信息。
选择未来开放的翻译场景,意味着在翻译质量基准和行业度量方面进行合作。当前的翻译界,每家公司都有自己的翻译质量评估方式,无法与业内同行比较和 检测质量。为了在融合时代发展壮大做好准备,需要能够度量各种机器翻译引擎的性能,跟踪和比较它们在不同领域、语言对和内容类型中取得的进步,需要制定使 用和不使用机器翻译技术的行业最佳实践。
需要在可接受的分值、等级和评估技术方面达成行业协议。如果我们没有此协议,很难满足市场期望和发展的要求。
作用力和反作用力
最后,如果翻译未来看起来仍然令你惊恐,那么请放松,每种力都有反作用力。无处不在、不完美的自动化翻译也将引导高质量(非自动化)翻译、创作式翻译和个性化翻译的需求,传统的人类语言技巧战无不胜。
翻译前景美好,未来在于选择。
参考文献和相关阅读


本文章是“TAUS Translation Technology Landscape(TAUS翻译技术愿景)”报告(共70 页)中“翻译的未来”一章摘要。完整的报告将在2013 年1 月底发布。
参见在西雅图召开的翻译自动化用户协会用户会议的视频:“Agents of Change: Insiders and Invaders(变革代言人:业内人士与入侵者)”。
“TAUS Planning for an Uncertain Future(TAUS不确定的未来之计划)”,此报告于2010 年10 月发布在TAUS网站可下载阅读。
TAUS Dynamic Quality Framework and benchmarking platform(TAUS动态质量框架和基准平台)”。参见TAUS实验室网站上的知识库和工具。
MT as the new Lingua Franca(机器翻译作为新通用语)”,“The last Lingua Franca(最后的通用语)”一书的评论,作者Nicholas Ostler,文章参见TAUS网站。
————
相关链接:
Choose your own translation future
Choose your own translation future.pdf
选择翻译的未来(TAUS原文链接)
翻译自动化用户协会(TAUS)2013高级经理人论坛