|
张政
[摘要] 机器翻译经历了50多年的曲折历程,已取得了长足的进展,但困扰机器翻译译文质量的瓶颈依旧存在。作者从语言学、翻译学、文化学、计算机科学的角度分析、论述了制约机器翻译译文质量的瓶颈,同时指出在全自动机器翻译遥遥无期的情况下,人助机译不失为一种好办法。
[关键词] 机器翻译 难点 形式语法 语言学
Key words: machine translation(MT) difficulties formal grammar linguistics
1 引言
五十多年前,美国进行了世界上第一次全自动机器翻译(Fully Automatic High Quality Machine Translation, FAHQMT,简称“机器翻译”)演示。该系统很小,只有250条俄语词汇,6条语法规则以及精心挑选的49个俄语翻译例句,这次试验有限的成功为人类的梦想插上了翅膀,人们对MT的未来充满乐观,似乎高质量的近在咫尺。但时至今日,MT的现实并不像人们所期待的那样美好。
例如:(以下是作者2003年参加的国内机器翻译系统评测的例子)
<131> 美圆今天的售价是多少?
How many is selling prices of beautiful round today?
Is Meiyuan's price today more or less ?
Fully engaged today offering price what is ?
How much is beautiful round today's price?
Is the beautiful price of round today amount?
译文佶屈聱牙,不忍卒读。没有一个系统的的语法结构正确,“美元”的翻译更是令人忍俊不禁。
朱自清的《荷塘月色》是一篇情调别致的抒情散文,通过描写月下荷塘,表现了作者对社会现实不满而又寻找不到出路的苦闷抑郁的感情,呈现给读者的是一个静谧阴沉的小天地。让我们来看看其中的第一段。
这几天心里颇不宁静。今晚在院子里坐着乘凉,忽然想起日日走过的荷塘,在这满月的光里,总该另有一番样子吧。月亮渐渐升高了,墙外,马路上孩子们的欢笑,已经听不见了;妻在屋里拍着闰儿,迷迷糊糊地哼着眠歌。我悄悄地披了大衫,带上门出去。
I have felt quite upset recently. Tonight, when I was sitting in the yard enjoying the cool, it occurred to me that the Lotus Pond, which I pass by everyday, must assume quite a different look in such moonlit night .A full moon was rising high in the sky; the laughter o children playing outside had died away; in the room, my wife was patting the son, Run-er, sleepily humming a cradle song. Shrugging an overcoat, quietly, I made my way out, closing the door behind me. (朱纯深 译) [冯庆华,2002,p180]
有一个自动机器翻译的译文是:
Quite not quiet in the heart these days. Would sit enjoying the cool in the courtyard this evening, suddenly remembered the lotus pool passing by everyday, in light of full moon this, always should have some appearances besides. The moon has risen gradually, outside the wall, the children laugh heartily on the road, can't hear; Wife make getting intercalary indoor, moan the song of sleeping dimly. I wrap the large shirt, pull to the door silently
仔细对比译文,我们就会发现,译文几乎是按照原文的单词堆砌起来的,只是个别的时间状语作了些调整。试比较:
Quite not quiet in the heart these days. Would sit enjoying the cool in the
颇 不 宁静 在 心 里 这些天。 坐着 乘 凉 在院子
courtyard this evening , suddenly remembered the lotus pool passing by
里 今晚, 忽然 想起 荷塘 走过
everyday, in light of full moon this , always should have some appearances
每天, 在 满月的光里 这, 总 应该 有 一番 样子
besides. The moon has risen gradually, outside the wall, the children laugh
另外。 月亮 已经升起 慢慢地, 墙 外面, 孩子 笑
heartily on the road, can't hear; Wife make getting intercalary indoor, moan the
尽情 在路上 ,不能听见; 妻子 制造 得到 夹在中间的门,呻吟
song of sleeping dimly. I wrap the large shirt, pull to the door silently
睡觉的歌 昏暗的。我 包着 大 衬衫,拉 到 门 悄悄地。
英语的译文基本上是按照汉语原文直接转换过来的,句子并不符合英语的表达习惯,译文质量低劣显而易见。
国际上著名的MT评论家哈钦斯先生不久前指出:“MT译文质量至今并没有取得实质性进展,很多50多年前未解决的问题如今依然存在①。(董振东,2000)”我国著名学者冯志伟先生也说:“从已经推出的实用化MT系统的译文质量来看,还不十分令人满意,对于一些简单的句子,译文一般不会有大问题,但对于一些稍长的句子,或结构稍复杂的句子,译文质量就不能令人满意,有时简直是不可卒读”。(冯志伟 1999:55)社会科学院刘倬研究员认为“MT的译文质量没有明显的提高。”(刘倬2002:1)。已投入市场的自动机器翻译系统的销路不好也侧面印证了及其翻译质量还不尽人意。
鉴于目前自动翻译的这种欲罢不忍、欲进不能的境地,我们有必要进行认真、理性、客观地分析制约自动翻译译文质量的瓶颈,以便重新厘定机器翻译今后的研究目标和努力方向。
2 难点分析
2.1 翻译本身的复杂性
人工翻译的过程是人工大脑思维活动的过程,是人工译者译者集理解、分析、选择、及再创造的综合过程,译者可以对译文进行删减和添加,也可以根据情况酌情进行雕饰和润色,总之,他有相当的自由度。而机器的工作原理是建立在串行二值逻辑的基础上,即“非此即彼”二者必居其一的情况,它没有思维、判断、推理能力,只能是在限定的范围内进行一对一的选择。因此,就不可避免地会出现令人费解的译文。比如,人名“黄思绵”的翻译,有4个MT系统分别译成了 (1) Yellow think of silk floss ..(2) Foxed simian ...(3).to think of the silk floss yellowly..和(4)Huang Si Mian ,从中我们不难看出这些译文的荒唐费解程度,而这种情况很有普遍性。早期英俄MT系统中的一个英语句子是“Out of sight, out of mind(眼不见,心不烦)”,译成俄语就成了“看不见的疯子(Invisible idiot)”、 “看不见的精神错乱( invisible insane)”、“隐身傻瓜(invisible lunatics)”、“隐身疯子(invisible and insane)”等,再把它译回英语,就已面目全非了(Hutchins 1986:16)。机器出像现这种情况并不奇怪,非常简单的翻译,让机器做出准确、恰当的选择也非易事,英语中的“set”,对应的汉语译文有上百种,与汉语“开”搭配的用法有“开工、开河、开灯、开始、开天辟地、开诚布公、开宗明义”等,也有100个之多,对应的英语译文数目就可想而知了。如何取舍,机器做起来并不容易,更何况大多情况下,翻译根本不是简单的字对句照。英国著名翻译理论家萨瓦里(T•Savory)认为“翻译是‘X=Y’的推论是谬误的,这种情况与事实不符”。(许均 2001:45)在翻译中,人工翻译也不是一对一的翻译。汉语的“一箭双雕”翻译成英语是kill two birds with one stone(一个石头打死两只鸟)、法语是faire d'une pierre deux coups(一个石头打两处),俄语是“一枪打死两只兔子”,而在德语中则是“一拍打死两只苍蝇”,因此不同的语言表达的基本含意相同,但形象及表达形式却迥然不同。再如英语wear(穿、戴),wear a tie,就不能翻译成“穿领带”,因此译文还受习惯表达的制约。如果让机器翻译的通顺,就必须在机器的词典库里进行详细的标注、限定,而这样的一部词典要尽可能包括详尽的语言学知识,如词法、形态(morphological)、句法(syntactic)、语义(semantic)、语用(pragmatic)等,甚至还要包括必要的常识,而这些知识丰富的信息只有通过适当的形式表达出来,才能为机器所用,或者说让机器能“懂”人类语言。但让机器“懂”,谈何容易。巴•希莱尔(Bar-Hillel)认为在机器内部建立一部通用的百科全书,这纯属空想,几乎不值得进一步考虑(… utterly chimerical and hardly deserves any further discussion)。(Hutchins, 1986, p155)
即使有了这样一部包罗万象的字典,机器在选择时带有任意性、随机性、盲目性、偶然性。例如英语中“the appearance of the man under the tree with a broken branch near the edge of the road in the town with a market”这个短语的排列组合有429种选项。(冯志伟, 1995, p224)要让机器挑出一个正确的选项,其难度可想而知。
2.2自然语言的复杂性
歧义(ambiguity)是自然语言中普遍存在的现象。其实质上是同一语言形式,具有不同的意义。所以自动翻译所面对的难题之一是语言消岐(disambiguition)。自然语言无论是从词汇、句法、语义、语用等各个层面充满歧义。如英语单词 article 可以指“冠词”、“文章”、“物品”、“项目”、“条款”、“商品”也可以指“说清楚”、“表达清楚的”,汉语中的“好”也是容易引起歧义的词,无论是英语还是汉语,这种一词多义现象比比皆是。另一种情况,一个句子可以表示多个意思,即句子本身是歧义的。如“鸡不吃了”,没有上下文,可以理解为“我们不吃鸡了”、“鸡(自己)不吃了”两种含义。英语中常见的结构歧义之一是and (和)结构,如the kind men and women,它即可表示“善良的男人和女人”,也可表示“善良的男人和善良的女人”。这种歧义结构看似简单,机器却无法识别,有人戏谑地说,谁能克服这个难题,就应该获诺贝尔奖,自动翻译消歧中的困难,由此可见一斑。
由于中国和西方国家无论在生存的条件和环境、历史和传统、思想方式等均存在很大差异,这种差异必然反映在中西语言上。王力先生提出形合(hypotaxis)和意合(parataxis)两个概念,(王力1954, p 310)“汉语里多用意合法,联结成分并非必要;西方多用形合法,联结成分在大多数情况下是不可少的。”汉语句子的结构也可称作为并列结构,语义单位并列展开,表示关系的连接词、介词、代词、限定词或说明成分的定语和状语较之英语用得很少。句子之间的衔接主要靠语义,各语义单位之间的关系通过结构内在的暗示,通过读者的理解来贯穿联系。形式上较松散、灵活随意、而又富于弹性。断句也没有严格明确的界限,一句话可以有一个句号结束,有时一个段落则为一句。汉语的语法成分界定不明确,句子的形式化特征不明显等等,都使得机器翻译的自动分析(parser)异常困难。比如“及物动词 + 名次”结构,仅从语法的层面,很难分析下去,“吃食堂”(语义上指“在食堂里吃” 但我们从不说“吃机关”、“吃家”或“吃单位”)、“吃公款”(但从来不说“吃硬币”、“吃支票”)、“吃大碗”(但从来不说吃“盘子”、“吃勺子”),汉语中的这些习惯用法至少在不远的将来很难有突破。
多义性(multimeaning)是自然语言的特点之一。多义识别一直是自然语言处理中最基本、也是最难解决的问题之一。它几乎表现在语言的各个方面,其中也包含由于语用因素造成的语句多义或语句“模糊性(fuzziness)”。说话人可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反应。人与人用自然语言进行交流是在一定的环境中进行的,交流知识背景一定有共同的部分,一切交流的目的大体上也有了预设。如“今天是星期六”,可以表示丈夫提醒妻子“今天不必上班”、孩子提醒父母“带他去公园”、莘莘学子“希望应该睡个懒觉”,还可以表示雇员提醒老板“今天工作就是加班”等等。这种言外之意以及他们包含出来的条件及语境(context),在目前情况下无法用形式化的方法精确地描述出来,完全使用上下文无关的语法公式来描写语言,其数量是难以控制的,而且使用句法树(grammar tree)也无法充分表达句子的逻辑语义。
汉英MT系统分析时,困难更大。如:(1) 汉语缺乏印欧语言那样丰富的形态;(2) 汉语的语素(morpheme)、单词和词组之间的界限很模糊;(3) 汉语的词类和它们的句法成分之间没有明确的一一对应关系;4)汉语中的虚词虽然有重要的句法功能,但在很多情况下又可以省略;(5) 汉语句子成分和语义关系之间也没有明确的一一对应关系;(6) 汉语书面语没有分词连写,即字与字之间没有空格,按句连写的书面汉语丢失了较多的语言信息,所以汉语的计算机信息处理任务更加艰巨。
巴尔特(R•Barthes)认为自然语言是最复杂的符号系统。(丁苏尔2000 :4)实际上,著名瑞士语言学家索绪尔(F•D•Saussure)在他的《普通语言学教程》中早就指出:“语言可以说是一种只有复杂项的代数”(Saussure 1959:122)。”斯坦纳(G•Steiner)认为自然语言具有极其繁复的种属和系统,是理性与非理性共同作用的结果,很难用严格的数学公式加以描述。(许钧2001: 73)。而维特根斯坦(L•Wittgenstein)则认为语言的用法、词的功能和语境等也像棋子的走法、走式一样,都是无穷多的。(中国大百科全书 1987: 915)自然语言的“复杂特征”的形式化(formal) 描述不是一朝一夕、急功近利的事情,况且人们对这种复杂性的认识也需时日,这本身就决定了自动翻译必须经过一个漫长而艰辛的过程。
2.3 机器自身的局限性
不可否认,计算机的发展速度超乎想象,匪夷所思。美国国家核安全管理处实验室和国际商用机器公司(IBM)合作开发的“蓝色基因/L”超级计算机,其运算速度可达200万亿次/秒,相当于现今世界上500台顶级超级计算机运算速度的总和。一种由DNA分子和酶分子构成的微型“生物计算机”已经问世。光子计算机、量子计算机已指日可待。但是计算机的最基本构成是处理器、内存和总线结构,它们只能对电路的开关(0和1)做出反应和发生作用,一个CPU只能处理一个指令,要到下一个单位时间,该CPU才能再处理下一个指令,这些决定了电脑的串行单一“思维”方式。这种结构可以看作是电脑的思维活动平台,电脑不存在意识,没有心理平衡问题,无法建立主体价值观,不能自动对所有的感受进行过滤以便处理有用和必要的事情。结构如此简单的电脑是绝对不可能实现人脑的思维,它所支撑的软件--即“意识”也只能是极其有限的。而人脑则不同,人脑是迄今为止构造最复杂的机构,其新皮层中约有几百亿个神经元,它可以与银河系中星星的数目相比较②,而且神经元彼此之间有着非常紧密的分工,它最大的特色,就是每个神经元细胞可同时将信息传给多个其它神经元细胞,而且自己还可以接受新的神经行动。如果一个神经元的反应时间是0.01秒,每个神经元细胞可将神经行动传给5个神经细胞的话,那么只需要0.1秒,单一神经行动就传给12207031个细胞,且这个数字还会随着时间以等比级数增加。人脑进化到今天,应该说目前是大自然赋予的最佳结构和最优配置,或者说人脑是目前物质的最高实现形式。如果人们要建造出一部可以模拟人脑的机器,则必须在机器中装入100亿个CPU进行运算,这至少在未来五十年内没有可能③。
3 机器翻译的出路
就在全自动的机器翻译山穷水尽的时候,计算机辅助翻译(Computer Aided Translation, CAT,或机助人译,machine aided human translation)、受限语言(或受控语言restricted/ controlled language)、子语言(sublanguage) 方面却迎来了柳暗花明的新天地。
计算机辅助翻译系统(CAT),主要采用翻译记忆(Translation Memory, TM)和灵活的人机交互技术。翻译记忆技术,可使人工译者不需要再重复翻译相同的句子、或内容结构相似的句子。利用模糊匹配技术,相似的句子也只要稍加修改就可以使用。对于长期从事专业翻译的人工译者,如果资料的重复率相对较高,效率提高会比较显著。同时人工译者之间还可以共享资源,只要把相互之间的记忆库进行合并,不但自己翻译过的内容无须重复翻译,别人翻译过的内容也可以利用。人机交互技术在根本上改变了传统的翻译方法,将翻译文档与软件进行链接,在操作上提供大量专业词汇的支持,减轻人工译者的工作强度,提高翻译效率译文质量,同时还可以在翻译过程中不断将自己的个性化词汇添加进来,实现自身资源的积累。
这样的一种翻译工作方式是基于目前阶段最先进的计算机技术来实现计算机与人互相配合进行工作,由计算机做那些枯燥的、标准性、重复性的工作,由人的大脑来处理需要创作、灵活发挥的工作。总之,扬二者之长,使鱼与熊掌兼得!
国内东方雅信公司凭借其在翻译和互联网领域中长期的技术积累,在翻译领域人才和资源的集结,自主开发研制了一系列高质量、高性能的适合于翻译领域应用的辅助翻译软件产品,为中国的翻译工作者提供了便捷、高质量的翻译手段,开辟了看到了中国机器翻译的新路。
4.结束语
与五十年前人们对机器翻译的盲目乐观态度相比,今人更加现实、更加理性、更加务实,人们不再追求高度虚无飘渺、现今社会技术水平短期内也希冀的全自动机器翻译,而是另辟蹊径,把辅助翻译作为一个全新的思路,这种理念正在被越来越多的翻译专业人员接受,目前全国有十几万的专业译员在使用辅助翻译工具便是佐证。我们有理由相信,在计算机辅助翻译的基础上,只要我们一步一个脚印,人类就一定能最终实现克服语言障碍、重建巴别塔的梦想。
注释:
①董振东:http://tech.sina.com.cn/soft/2000-07-06/480.html
②崔思龄:电脑距人脑有多远,http://www.yifan.net/yihe/novels/commind.html
③吴育玮:人工智慧—电脑真的会比人脑聪明吗?http://www.digitalobserver.com/index.htm
参考文献:
1. Bar-Hillel, Y. The present status of automatic translation of languages[J]. Advances in
Computers, 1960. 91-163.
2. Hutchins, W. J. Machine Translation: Past, Present, and Future[M]. Chichester, England: Ellis Horwood Limited, 1986.
3. Hutchins,W.J. & Somers, H. L. An Introduction to Machine Translation[M]. London: Academic Press, 1992.
4. Nagao,M.(trans by Cook, N. D.) Machine Translation, How Far Can It Go?[M].
Oxford: Oxford University Press, 1989.
5. Saussure, F.De. Course in General Linguistics[M]. New York: McGraw-Hill Book Company, 1959.
6. Steiner, G. After Babel – Aspects of Language and Translation[M]. Oxford: Oxford University
Press, 1975.
7. 陈 原.《语言和人》[M]. 北京:商务印书馆,2003.
8. 丁苏尔.《语言的符号性》[M]. 北京:外语教学与研究出版社,2000.
9. 冯志伟.《自然语言机器翻译新论》[M]. 北京:语文出版社,1995.
10. 辜正坤.《中西诗比较鉴赏与翻译理论》[M]. 北京:清华大学出版社,2003.
11. 侯 敏.《计算语言学与汉语自动分析》[M]. 北京:北京广播学院出版社,1999.
12. 黄河燕.《机器翻译研究进展》[M]. 北京:电子工业出版社,2002.
13. 靳光瑾.《现代汉语动词语义计算理论》[M]. 北京:北京大学出版社,2001.
14. 廖七一.《当代西方翻译理论探索》[M]. 上海:译林出版社,2000.
15. 林杏光.《词汇语义和计算语言学》[M]. 北京:语文出版社,1999.
16. 刘 群. 汉英机器翻译的难点分析[A], 黄昌宁,《1998中文信息处理国际会议论文集》[C]. 北京:清华大学出版社,1998.
17. 刘涌泉等.《中国的机器翻译》[M]. 北京:知识出版社,1984.
18. 刘 倬. 机器翻译的发展和突破[A],黄河燕,《机器翻译研究进展》[]. 北京:电子工业出版社,2002.
19. 索绪尔.《普通语言学教程》[M]. 高名凯译. 北京:商务印书馆,1982.
20. 王 力.《王力语言学文集》[M]. 北京: 商务印书馆,2000.
21. 许 钧等. 当代法国翻译理论[M]. 南京:南京大学出版社,1998.
22. 姚天顺.《自然语言理解》[M]. 北京:清华大学出版社.1995.
23. 俞士汶等.《计算语言学文集》[C]2、3、4.北京大学计算语言学研究所,1996-2000.
24. 《中国大百科全书》[Z]. 北京:中国大百科全书出版社,1987.
25. 朱德熙. 汉语里的歧义现象[J].中国语文,1980(2).
作者:张政,北京工商大学外语系, 英语语言文学博士, 教授, 东方雅信公司高级顾问
联系方式: 邮编:100037 海淀区阜成路33号 北京工商大学外语系
研究方向: 机器翻译,翻译理论,中西文化对比
电子信箱:zhangzheng6789@sohu.com
电话: 010- 68985711 83352689 手机: 13520545125
|