• 消息热线:40066-40084
  • 广告热线:86000743 86000643
  • 设为首页
  • 参加收藏
  • RSS订阅
  • 投稿信箱:nihao@foxmail.com
  • 当天焦点 - 生存娱乐 - IT新闻 - 红企之窗  导航: 首页 >> 科技 >> 谷歌翻译的华夏基因

    谷歌翻译的华夏基因
    笔者:体育赛事竞猜 来源:水上收集 创新日期:2017/9/22 翻阅次数:
      2004年,Google创始人之一Sergey Brin运用市面上的网络服务来翻译韩国粉丝发来之邮件,结果表现:“生鱼片带着它的心愿,用Google追寻绿洋葱!”这样的结果,让Sergey认为Google在这方面可以做的更好。
      前不久,Google翻译发布了iPhone和Android本版,让用户能够随时使用翻译服务,更加轻松便捷地跨越语言障碍。该手机采用可以识别15种语言的话音输入,朗读或全屏显示23种语言的翻译结果。对于非拉丁字母语言,例如中文和日文,采用将标注拼音或罗马字读音,便于非母语用户读出。与Google翻译的桌椅应用相同,移步翻译也能够翻译58种语言书写的字词和短语。
      移步翻译设置了一部分常用内容的翻译收藏,即便在没有互联网连接的情况下也可读取,实时翻译则需通过WiFi或挪动网络连入Google云端获取结果。这款产品对于许多用户来说非常富有,如果身在露天,不明白某句话用外语该怎么说,只需打开程序,把想说的话念给手机,下一场点击“翻译”,手机就足以把散文朗读出来。
      基于统计的机器翻译
      Google翻译产品在中外只有两个团体,一度是在Google支部,另一番就在神州焦化。“Google翻译在张家口成立,首要因为这次有两个人喜好做翻译,其中一个就是尹俊(Google翻译产品研制领导,笔者注),它可谓是Google拉萨翻译团队的创始人。穿越马耳他翻译团队开展合作,拉萨的翻译队伍越来越大,而今已经达到十几口之框框。眼前印尼支部的翻译团队主要承担后台的平行语料数据,拉萨翻译团队负责手机、桌面电脑翻译应用的付出。 Google的更新模式常常是自下而上的,工程师可以在办事中发挥个人兴趣,如果做出贡献,就有可能凝聚逐渐扩大成一个团队。”在陈雍�N总的来说,拉萨组织的成立要归功于Google的更新模式。
      如今大部分之经贸翻译系统都是属于规则法机器翻译,要求做大量词汇与语法的劳作。Google翻译则采取基于统计的机器翻译,这是IBM教育学家在1993年提出的意见,具有划时代的含义。Google而今支持58种语言的互译,翻译团队的积极分子们掌握的语言远少于这个数字,这也是统计翻译的魔力所在。统计翻译的现实原理是,先往计算机里输入大量之文字文本,筹建涵盖源语言和对象语言的平行语料库,构建统计翻译模型。该署模型可以协助Google在源语言与目标语言中寻找各种相互关联,得出某些特定单词、短语或文件的极品翻译结果。针对某种特定语言,Google翻译分析的翻译文档越多,电文的品质就越高。据陈雍�N介绍,Google翻译主要有四个步骤:
      第一,系统需要将源语言句子切分为短语,这是一门复杂的文化。英文单词之间有空格,中文句子则不然。出于统计翻译系统本身并不具备理解自然语言的力量,在面对“汽水不如果汁好喝”本条句子,“不如”和“如果”都是一种划分可能;副,不同语系的团队形式有很大差别,研制人员必须越过对平行语料的剖析来处理词汇的排序问题。剖析平行语料是建模过程,翻译则是运用模型的历程,前者的打法往往比后者复杂;下一场,系统需要分辨同一个词的不同形态,例如过去式和今天分词,这是一番判断的历程;说到底,名将构成目标语言的词汇合理联结起来。
      Google眼前能够翻译58种语言,如果按排列组合来算,理论上需对应近3000种平行语料,事实上Google翻译的语料库远没这么多,之所以很多语言之间的翻译是经由“桥接”的,这在机器翻译中是一种普遍技巧。打个形象点的例证吧,眼前法英互译的品质认可比法汉互译要好,如果遇到法译汉的急需,翻译系统可能利用迂回战术,先将法语翻译成英语,再下英语到汉语。比如Google翻译中关于泰文和希伯来文的平行语料较少,但却能够提供这两种语言的翻译,据陈雍�N透露,“这种偏僻语系的互译十之八九是经由桥接的”。
      “增强翻译质量是一番多管齐下的技巧。翻译的品质至关重要的还是急需收集平行语料,另外,如果在建模方面可以找到更好的匹配算法或拆分算法,双管齐下效果更好。”陈雍�N打了个巧妙的例证,“平行语料好比食材,只有材料够好,厨师的工艺也够好,而且也有一部分调味料的情况下,才能做出美味的菜。”
      移步翻译――“20%品种”的结局
      Google有个20%品种,兴许员工拿出20%的劳作时间,用于从事本职工作以外的档次,这样就能开发出更多种类之产品,移步翻译可以算作Google“20%品种”的结局。
      “早期移动这方面有几个因素,先后一个就是因为大家都说移动是未来,这我深信不疑。老二,发生了一下小故事――有个同事做出了手机网页版的运动翻译,并且发布出去,结果那段时间我们的含金量呈几何倍数的疯涨。”这使陈雍�N摸清移动搜索的市场要求的大。
      它开始在张家口研发中心游说,问谁愿意做这个项目的青工。朱文章(Google翻译iPhone基本工程师,笔者注)对手机采用很感兴趣,就在正活之外进行iPhone版Google翻译的研制,只用两角时间就做成了成品雏形。“咱们先后一个手机翻译产品的就是这样出生之,”谈及移动翻译,陈雍�N的自豪的情溢于言表。
      拉萨组织、新加坡组织对于产品雏形都很乐意,并且为朱文章加拨了人工支持。概括两三个季度后,由朱文章主管开发的iPhone版Google翻译正式宣告。在超过一周之年华里,她一直是全世界排名第一之免费软件。
      理论上来讲,Google能在计算机端能够多少语种的互译,也能在手机端提供那么多。而在现实情形中,移步翻译提供多少语种的话音翻译,取决于他支持多少语种的话音识别。语音识别需要巨大的数量来源,才能建立很好的鉴别模型,对此Google早有准备。2007年,Google初步提供GOOG-411) 拍卖语音搜索。虽然GOOG-411并非Google的关键收入来源,但他为研制人员收集了海量数据,使之能够不断完善语音识别算法。一年之后Google 生产的话音搜索,可以比肩其他企业历时数年才搭建起来的类似系统。据Google称,这款语音搜索服务为Google Android和苹果iPhone等智能手机平台上“更多富有野心的劳动提供了基础”。例如,装有Froyo硬件的Android我家可通过语音控制手机的多边功能,而Google生产的iPhone采用也内置了语音识别功能。
      Google 2010年10月关闭了这项服务,并在声明中表示,准备将相关资源投入到“使下一代Google产品和劳动支持多语种语音的技巧”美方,咱们今天看到的话音翻译即是收获之一。可以预见,语音识别未来将变成Google更多服务的特点。
      虽然移动翻译接收的源语言多数具有口语化的特色,在陈雍�N总的来说,这对翻译质量并不会造成太大影响。第一,我家使用语音翻译时,对自己要讲的情节一般都有显著的认识,之所以语句的流畅程度跟桌面翻译的出入不大。副,人人使用语音翻译时的讲话方式不同于演讲,大部分情况下语句简短,对于语音翻译来说不难应对。 “两者最大的出入在于用户体验方面。微机键盘使用很红火,而手机键盘很小,咱们必须想办法方便用户输入源语言。另外,语音翻译的应用环境可能跟办公室有较大区别,相对于口语中偶尔出现的刹车和反复现象,对外杂音对翻译质量的影响更大,之所以我们得过滤不必要的新闻。”
      过滤杂音的职责多由翻译程序完成,研制人员可以设定一个音量阈值,名将低于此值的重音筛掉。另外,如果语言出现停顿,名将她表现句子结束还是“正在考虑、尚未说完”来处理,也是翻译程序可以决定和掌握的。再者,“如果用户说错了一两个字该怎么处理?让人家分量说一遍还是直接修改那一两个字,该署用户体验方面的题材,都得以通过全面翻译程序来提升。”
      陈雍�N表示,“除了之前的话音搜索,Google有成百上千产品采用语音方面的效益。在他家使用这些产品的历程中,研制人员会根据用户反馈不断完善产品的打法。历经一轮一轮的迭代,产品品质自然而然会有所增强。” 然而,Google眼前的文字翻译系统尚有好多语法错误,人家语音识别技术能否应付各种各样的中央口音,我家们的认知最深切。
    相关文章:
    剩女也有“优势” (2013-6-9)

    
       
       
        
        



  •