2001年,Google开始提供八种语言与英语之间的互译服务。当时使用的是最先进的商业机器翻译(MT),但是翻译质量不是很好,最初的几年也没有多少改善。2003年,几名Google工程师决定提高翻译质量,并增加更多语言。我就是那时加入这个工作的。当时,作为一名DARPA工程研究员,我试图寻求一种新的机器翻译方式——从数据入手研究,希望带来更好的翻译质量。我接到Google工作人员打来的电话,他说服我说(我之前很怀疑!)数据驱动方法可能在Google上起作用。
我之后便加入了Google,和同事一起开始重新设计翻译系统,参加了 NIST机器翻译系统评估比赛,这是一场研究机构和公司之间的分词竞赛(bake-off),旨在构建更好的机器翻译系统。Google雄厚的计算基础设施和处理海量网络数据的能力为了我们带来了强劲的表现。这是一个重大的转折点:它强调了数据驱动方式将会多么有效。
但是,那时我们的系统速度太慢,无法运用到实际操作中——翻译1000个句子需要花费40个小时,使用1000部机器。因此我们专攻速度,一年以后我们的系统能够在一秒内翻译出一个句子,并且质量更高。在2006年初,我们推出了首批语言服务:汉语和阿拉伯语。
2006年4月28日,我们宣布推出统计机器翻译方法。在那之后的六年里我们主要的关注核心在于翻译质量和语言覆盖面。如今,我们可以在64种不同语言之间自由翻译,包括网站上极罕见的语言,如孟加拉语、巴斯克语、斯瓦西里语、意第绪语,甚至世界语。
如今,Google翻译每月拥有超过两亿的活跃用户(如果算上其他可以使用翻译的地方,如Chrome、移动应用等,这个数字会更大)。而在旅途中人们随时随地使用Google翻译的心情更为迫切(在旅行中,语言障碍比任何时候都要凸显)——我们看到,移动流量以每年超四倍的幅度在增长。而Google翻译的用户是真正的遍布全球:目前有超过92%的流量来自美国以外的地区。
我们一天翻译的文本大约相当于100万本书中的文本量。换句话说:专业翻译工作者一年的翻译产出,我们的翻译系统大约用一天就可以完成。这样一算,现在世界上大部分的翻译都是由Google翻译完成的。当然,对于精雕细琢的或关键性的翻译而言,没有什么能比得过翻译人员的了——我们也相信,在机器翻译更多地鼓励人们使用自己的母语,且承载着更多全球性交流的同时,翻译专家将比以往更加重要。
我们设想的是,未来世界上的任何人都能使用和分享所有信息,无论信息以何种语言呈现,也无论信息出现在哪里。我们已为使用Chrome浏览器的网页、移动设备照片中的文字,以及智能手机语音对语音的“对话模式”中的文字提供了翻译功能。我们希望跨越一切给人们带来不便的语言障碍,我们也迫不及待地希望看到未来六年的改变。
发表者:Franz
Och,Google杰出翻译科学研究员