打破语言障碍,挑战实时语音翻译
分类:互联网

今天,具备实时语音翻译技术的Skype 翻译器(Skype Translator)中文预览版正式在中国市场推出。这一凝聚微软在语音识别、自动翻译和机器学习等多领域成果的产品,将使英文和中文普通话之间的实时语音对话成为现实。

Microsoft Translator:打破语言障碍 拓展全球沟通新机遇,translator新机遇

澳门新葡8455最新网站 1

澳门新葡8455最新网站 2

作者:Olivier Fontana, 微软研究院Microsoft Translator产品战略总监

 

世界越来越小,全球协作、共同创新已经成为常态。在微软研究院,我们对此尤为感同身受——从北京到雷德蒙,从剑桥到班加罗尔,全球范围内的无边界沟通与协作是我们科研合作与产品创新的关键基础。全球一体化带来的发展机遇应该属于每个人,为了帮助全球各地的人们跨越语言的障碍,实现高效沟通与广泛协作,我们带来了Microsoft Translator。

 

Microsoft Translator是微软以机器学习、大数据、自然语言和云计算等前沿技术为基础打造的自动翻译服务,也是微软众多人工智能研究成果中投入使用最早也最广泛的应用之一。Microsoft Translator现已支持50多种语言的文本翻译、8种语言的实时语音翻译和18种语言的语音识别和输出。就在2016年7月底,我们在中文简体和繁体的基础上,最新加入了粤语文本翻译,进一步完善了对汉语应用环境的支持。

 

自我学习的智能翻译

 

“统计机器翻译”是Microsoft Translator背后的主要技术,它以微软十几年来在自然语言领域的研究为基础,加入了统计学与机器学习的原理。简单地说,这套翻译体系将“翻译”转变成了一个机器学习的课题,让计算机不断地对训练数据中的人工译文和语言转换结果进行判断与学习,在不断的纠错与改正中,促进系统算法的自我完善与优化。通过统计建模技术和高效的算法,不断学习优化的机器翻译系统能学会根据上下文的语境,而不是单词的意思和生硬的语法规则来匹配最恰当的翻译结果。

澳门新葡8455最新网站 3

要说Microsoft Translator的智能来自于机器学习、自然语言等技术,而它的可靠运行与不断优化,则离不开微软在各领域的资源优势。例如,作为一项云服务,Microsoft Translator运行于Microsoft Azure云平台,Azure提供了机器学习等高级分析功能的运行平台,同时也确保了其作为SaaS云服务的高可用性和数据安全性,并且它还可以根据需要弹性扩展运算规模。另一方面,覆盖全球的必应搜索引擎,也为Microsoft Translator提供了全球规模的语言素材与学习资料,让机器学习系统得以不断地成长和完善。

 

与此同时,微软旗下多样化的产品与服务,也为Microsoft Translator提供了施展才华的广阔天地。从2006年起,Microsoft Translator便逐渐开始为越来越多的微软产品提供自动文本翻译功能,例如Office、必应搜索、IE和Edge浏览器、Skype、微软小娜(Cortana)等等。或许你还没有意识到,但它其实一直都在你身边——在电脑的Word界面中点击“审阅”菜单项,然后选择“翻译”图标,你就能领略到Microsoft Translator的本领了。

 

让你自然交流的智能语音翻译

 

在2016年3月底举办的Build2016微软开发者大会上,微软CEO萨提亚·纳德拉指明了微软乃至IT产业未来的一个发展方向:让人类的自然语言与先进的机器智能进行交互,也就是“对话即平台(Conversation as a Platform)”的概念,并且发布了“微软机器人框架(Microsoft Bot Framework)”以及微软认知服务(Microsoft Cognitive Service),用以帮助开发者打造新一代的人工智能应用。事实上,作为一个能听会说多种语言的人工智能服务,Microsoft Translator在语音翻译服务方面已经提前取得了成功的实践。

澳门新葡8455最新网站 4

微软认知服务

 

早在2014年,Microsoft Translator即推出了语音翻译服务,2016年3月又面向开发者开放了语音翻译的API。目前Microsoft Translator支持对包括中文普通话在内的8种语言的实时语音翻译(英语、法语、中文、德语、意大利语、西班牙语、阿拉伯语、葡萄牙语)。在Skype Translator以及Windows、iOS或者Android版的Microsoft Translator应用中,你都可以体验到这项私人实时口译服务。

 

语音翻译要比文本翻译复杂得多,需要经过自动语音识别(ASR)、TrueText智能文本校正、自动文本翻译以及文本到语音转换(TTS)四个步骤。

澳门新葡8455最新网站 5

其中,自动语音识别借助深层神经网络,对数千小时不同语言的音频数据进行分析和学习,以达到“听懂”人类自然语音的目的——基于机器学习,语音识别的效果也会随数据的积累而不断完善。TrueText智能文本校正则负责将人们口语化的交流转换为规范的文本,比如,去掉“嗯”、“啊”、“这个”、“那个”之类的赘词以及重复、口吃等语病,并添加断句、标点符号,从而让文本更贴近用户本来的意图,也更易阅读和翻译。在文本翻译基础上增强的语音翻译引擎,增加了更多口语文本语料库,从而为口语会话类翻译构建了更好的模型。最后是文本到语音的转换过程,如果翻译的目标语言是Microsoft Translator目前所支持的 18 种转换语言之一,那么就能使用语音合成技术将翻译后的文本转换成语音播放出来。整个语音翻译过程中,深层神经网络(DNNs)技术的引入,则极大程度地降低了翻译的错误率,提高了可靠性。

澳门新葡8455最新网站 6

带上你的私人翻译,畅行天下

 

为了让更多用户可以随时随地、便捷地使用翻译服务,Microsoft Translator面向不同平台推出了移动端应用。这款应用不仅适用于Windows设备,同时还支持使用iOS、Android平台的设备,甚至包括Apple Watch和Android Wear智能手表。

澳门新葡8455最新网站 7

运行于智能终端的Microsoft Translator经过持续的完善与升级,目前已经发展的非常成熟,不但支持众多语言的翻译功能,而且还可以提供离线翻译选项。用户既可以用键盘输入或者粘贴文本,也可以利用麦克风直接录入语音,或者是将看到的外国文字拍摄下来,让软件自动识别并翻译。在最新版本中,我们还加入了支持8种语言的实时语音翻译功能,让语言不通的两个人,仅凭一部手机就能进行面对面的实时语音交流。

 

Microsoft Translator移动端应用绝对是海外旅行必备的利器,它不但可以帮我问路,还能靠拍照辨认街道、商铺和没有图片的菜单,甚至可以让我和五湖四海的新朋友进行一次真正有意义的谈话,真正体会到四海一家的畅快沟通。

 

在中国越来越流行的“海淘”则是Microsoft Translator的另一个用武之地。基于Microsoft Translator技术的必应翻译(bing.com/translator)提供了在线文本翻译和网站翻译功能,只需输入你的海淘网址,就能实现整个网页的机器翻译,并且同样支持50多种语言,让你的海外购物无障碍。Windows 10用户通过添加Edge浏览器的Translator扩展插件,即可一键翻译整个网页或者文本。

 

在你最熟悉的微信中,也有Microsoft Translator的身影。只需在对话界面中,长按对话气泡内出现的法语、日语或者阿拉伯语等文本,选择“翻译”,就会出现“微软翻译”给你带来的中文译文。

 

企业要国际化,还是本土化?我们都能帮忙

 

在全球市场一体化的今天,Microsoft Translator在商业领域和企业市场的应用前景也越发清晰起来。无论是海外企业拓展中国市场的本土化改造,还是中国企业出海发展的“走出去”战略,我们都能助一臂之力。

 

Microsoft Translator所提供的文本和语音翻译服务,可以帮助跨国企业实现无障碍的内部沟通和内部培训、面向全球市场提供客户支持、建设在线社区,并实现网站、文档资料、商业智能的实时、双向或多向的翻译。相比传统的本土化手段,作为云服务出现的Microsoft Translator提供了按需付费的低成本、可定制的跨平台开发和接入能力,可以确保符合企业IT的安全策略,并提供了业界唯一支持行业用户定制的翻译语料库。目前,Microsoft Translator已经服务于全球上千家企业客户,包括亚马逊、eBay、Twitter、惠普、戴尔等,都在各自的业务全球化、本土化领域中得到了Microsoft Translator的帮助。

澳门新葡8455最新网站 8

 

在你最熟悉的微信中,也有Microsoft Translator的身影。只需在对话界面中,长按对话气泡内出现的法语、日语或者阿拉伯语等文本,选择“翻译”,就会出现“微软翻译”给你带来的中文译文。

 

企业要国际化,还是本土化?我们都能帮忙

 

在全球市场一体化的今天,Microsoft Translator在商业领域和企业市场的应用前景也越发清晰起来。无论是海外企业拓展中国市场的本土化改造,还是中国企业出海发展的“走出去”战略,我们都能助一臂之力。

 

Microsoft Translator所提供的文本和语音翻译服务,可以帮助跨国企业实现无障碍的内部沟通和内部培训、面向全球市场提供客户支持、建设在线社区,并实现网站、文档资料、商业智能的实时、双向或多向的翻译。相比传统的本土化手段,作为云服务出现的Microsoft Translator提供了按需付费的低成本、可定制的跨平台开发和接入能力,可以确保符合企业IT的安全策略,并提供了业界唯一支持行业用户定制的翻译语料库。目前,Microsoft Translator已经服务于全球上千家企业客户,包括亚马逊、eBay、Twitter、惠普、戴尔等,都在各自的业务全球化、本土化领域中得到了Microsoft Translator的帮助。

澳门新葡8455最新网站 9

在7月份刚刚结束的WPC 2016微软合作伙伴大会上,微软宣布将在今年年底前为Office 365企业用户提供Skype Meeting Broadcast服务,它可以自动为网络会议添加字幕,并将会议实时地翻译成不同语言展现出来——这同样都是基于Microsoft Translator实现的。

 

开放的API带来开放的发展机遇

 

今天的微软是一家生产力与平台公司,我们致力于打造创新平台,助力合作伙伴和生态系统的共同发展。在应用前景广阔的智能文本和语音翻译领域,Microsoft Translator也为人们带来了创新机遇。

 

事实上,从2011 年起,Microsoft Translator便开放了 API,并以Azure云平台SaaS服务的形式向第三方提供云端接入服务。目前,全球已有数千家客户在使用此服务,来实现网站本地化、多语言客户支持、电子商务、社交媒体、网络游戏、商业智能等典型应用场景。Microsoft Translator API 可以轻松实现跨平台接入第三方系统及应用,开发者只需在Azure Data Market网站 (datamarket.azure.com/browse/Data)上注册使用,即可获得每月200万字符的免费翻译服务。

 

微软的使命是予力全球每一人、每一组织成就不凡。我们希望Microsoft Translator通过微软的产品为消费者提供服务的同时,可以予力更多开发者和企业,为全球更多用户提供多样的翻译服务,打破语言间的壁垒,促进世界各地人们的沟通、交流。

立即访问

Translator:打破语言障碍 拓展全球沟通新机遇,translator新机遇 作者:Olivier Fontana, 微软研究院Microsoft Translator产品战略总监 世界越...

澳门新葡8455最新网站 10

地址:

基石:机器学习

这个实时语音翻译功能的实现,有赖于强大的机器学习平台。机器学习是指软件学习训练数据的能力。语音识别和机器翻译的训练数据包括翻译的网页、配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。Skype Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。

和滚瓜烂熟的朗诵不同,口语交流中常常会出现不流利的情况。人们在说话时会停顿、重复,并伴有“嗯”“呃”“啊”之类的语气词。我们的机器学习模型针对以上问题会相应处理这些停顿。在预览版中,用户可以看到咦部分语气词停顿被移除,而没有被移除的部分则可能通过用户反馈进行再优化。

澳门新葡8455最新网站 11Skype翻译器开创性地结合了句法和统计模型,并更有针对性地训练对话性语言的输出。图片来源:skype.com

通过去除造成不流利的字词、将文本分解成句子、添加标点符号和大小写识别,软件可以实现更好的识别和翻译。而利用在预览版阶段获取的训练数据,软件能针对真实使用者的不同话题、口音与语言转换进行学习。

在准备好的数据被录入机器学习系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时,软件会在该统计模型中寻找相似的内容,之后应用到预先“学到”的转化程序中,使得音频转换为文本,再从文本转换成另一种语言。

另外,研究团队也创造了一个定制化的机器人程式来协调整个产品体验。它负责建立电话连接、发送音频流至语音引擎获取翻译文本,并分别在双方结束说话时翻译其所说的内容。

据外界报道,微软承包商正在收听使用Skype翻译功能的用户之间对话。只有当用户在Skype中执行翻译功能时,而不是在任何其他典型的Skype语音或视频呼叫期间,微软承包商才能执行此操作。

语音

迈向未来的新体验

经过多年的专注投入,微软在北京和美国雷蒙德的团队合作完成了普通话的语言模型,而得益于深层神经网络与统计机器翻译技术的结合,语音识别能力被进一步提高,翻译结果不断准确化,让一对一的语音交谈成为现实。在中文预览版中,用户可以体验到令人讶异的新功能:

  1. 语音读取文字信息:用户可以通过语音收听到对话方发送给自己的即时消息,语音的语言可以自选。
  2. 持续性识别:在对方发送语音信息期间可持续性的进行文字翻译。
  3. 自动声量控制:对话方可以在实时语音翻译期间不间断地说话,同时用户可收听到较高音量的语音翻译,而对话方本身的语音信息呈现出较低音量
  4. 语言翻译静音功能:用户可以任意开启或关闭语音翻译的声音,并直接读取文字翻译。  

当听见一口流利的中文从外国友人的“口中”传出时,可以想象人们内心的惊喜与激动。图片来源:Youtube.com

此前数十年,语音识别的发展一直受到错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院率先将深层神经网络(DNNs)技术引入语音识别,极大程度地降低了错误率,提高了可靠性,最终使这项语音翻译技术得以更广泛地应用。

从现在开始,中英实时语音翻译的大幕已经拉开,世界上使用人数最多的语言和世界上使用最广泛的第二语言将能直接展开对话。相信随着产品的不断优化,跨语言无障碍交流的时代终将来临。(编辑:Calo)

微软还表示,发送给承包商的音频数据是通过一个安全的在线门户网站发送的,它确保删除任何识别信息。尽管如此,微软仍然没有提到人类工作者可能会听用户的skype翻译对话或cortana命令。

代码:

文章题图:skype.com

 

 

收集的信息包括有关夫妻之间亲密对话的Skype音频等。该数据还表明,微软的承包商会收听智能语音助手Cortana所说的语音命令。 微软承包商看到的信息是匿名的,不包含任何用户身份信息。这些承包商手动翻译Skype音频对话,这些对话由微软发送,另外还有Skype的人工智能程序生成的一系列近似翻译。承包商必须选择最准确的翻译或提供自己的翻译,并将信息发送回微软。

ASR (语音识别)

信息来源:微软亚洲研究院

微软警告用户,它会分析Skype中翻译呼叫的音频,以改进其服务,但它没有提到某些分析将由人类完成。Skype翻译功能允许用户在电话和视频通话中通过人工智能进行实时音频翻译。一位微软承包商表示,事实上,他甚至可以和外界分享其中的一些内容,这表明微软在保护用户数据方面有多么松懈。根据微软的说法,该公司在其Skype翻译器功能和Cortana在如何使用语音数据改进每项服务方面都清晰明了。微软表示,它力求对语音数据的收集和使用保持透明,以确保客户能够就何时以及如何使用语音数据做出明智的选择。

3.  NLP

论文地址:

论文地址:

2. 机器翻译

数据集: Switchboard Hub5'00

数据集:SVHN  NORB

【嵌牛提问】:学术领域,最新的机器学习技术都做到了什么水平?

论文:Random Erasing Data Augmentation

论文: 虚拟对抗训练: 一个面向监督和半监督的正则化方法 (2017年)

地址:

论文:Aggregated Residual Transformations for Deep Neural Networks

论文:ShakeDrop regularization

6. 命名实体识别

数据集: Unsupervised CIFAR 10

迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo

论文:DYNAMIC EVALUATION OF NEURAL SEQUENCE MODELS

提出了学习结构化的文本表征,关注在没有语篇分析和额外标注资源下学习结构化的文本表征。在Yelp数据集的准确率达到68.6

作者提出了一种新的神经机器翻译方法,其中翻译模型仅使用单语言数据集学习,句子或文档之间没有任何对齐。这个方法的原理是从一个简单的无监督逐字翻译模型开始,并基于重构损失迭代地改进这个模型,并且使用鉴别器来对齐源语言和目标语言的潜在分布。

这一份列表几乎囊括了2017年机器学习领域所有最重大的突破,从微软对话语音识别错误率将至5.1%、到Hinton掀起深度学习革命的Capsule 网络、再到谷歌的“一个模型学习所有”“Attention is all you need”以及Facebook在机器翻译上的屡次突破,以及让大家兴奋的AlphaGo Zero。

地址:

地址:

地址:

地址:

监督学习

本文提出了AttentiveConvNet,通过卷积操作,拓展文本处理的范围。从本地上下文和非本地上下文提取出的信息来得到单词更高级别的特征。在Yelp数据集的准确率达到67.36

【嵌牛鼻子】:自主行动 神经网络动力学 基于模型的强化学习

Github上有一个开源项目,专门用于更新最新的研究突破,具体说来,就是什么算法在哪一个数据集上取得了state-of-the-art 的成果。大类包括:监督学习、半监督学习和无监督学习、迁移学习、强化学习,小类包括语音、计算机视觉和NLP。

地址:

错误率:24.63(SVHN )9.88 (NORB)

地址:

7. 依存关系句法分析

半监督学习:计算机视觉

论文:Attention Is All You Need

5. 问题回答

3. 文本分类

数据集:the game of Go

介绍了交互式推理网络(IIN),这是一种新型的神经网络架构,能够实现对句子的高层次的理解。我们证明了一个交互张量包含了语义信息以解决自然语言推理。准确率达88.9

论文: 用GAN生成非标签样本 (2017年)

论文:Mask R-CNN

论文:Aggregated Residual Transformations for Deep Neural Networks

在WMT 2014英德翻译任务和英法翻译任务中,模型的性能分别提高了0.5 BLEU points和0.4

论文提出了一种新型的多层级架构,该架构并不依赖于具体语言学的资源和解码规则。模型在Ritter数据集上F-measure的表现为0.59

这不仅仅是一份论文和代码资源的列表,更是2017年机器学习和人工智能里程碑的表单,在这里,你可以读懂2017机器学习领域究竟在哪些方向上取得了突破,各大前沿机构和学术大牛们在哪些方向上发力。

得分&准确率:BLEU: 21.2;BLEU:30.5;86%

论文:Dynamic Routing Between Capsules

Market-1501(Rank-1: 83.97 mAP: 66.07)

ElO Rating: 5185

3.  NLP

本文提出使用动态评估来改进神经序列模型的性能。 模型通过基于梯度下降的机制适应最近的历史,将以更高概率分配给重新出现的连续模式。动态评估将Penn Treebank和WikiText-2数据集上的perplexities分别提高到51.1和44.3

提出了使用DropConnect作为经常正则化形式的权重下降的LSTM。此外,本文引入NT-ASGD,平均随机梯度方法的变体,其中平均触发是使用非单调条件确定的,而不是由用户调整。使用这些和其他正则化策略,本文在两个数据集上实现了state-of-the-art word level perplexities:Penn Treebank上的57.3和WikiText-2上的65.8。在结合我们提出的模型探索神经缓存的有效性时,在Penn Treebank上实现了更低的52.8的state-of-the-art word level perplexities,而在WikiText-2上达到了52.0

迁移学习

论文:Attentive Convolution

论文:使用虚拟对抗训练实现分布式顺滑 (2016年)

强化学习

迁移学习

论文:Learning Transferable Architectures for Scalable Image Recognition

澳门新葡8455最新网站 12

错误率:1.27

2.  计算机视觉

论文:无需人类知识掌握围棋

澳门新葡8455最新网站 13

得分: BLEU:(32.76 32.07 26.26 22.74);BLEU:(15.05 14.31 13.33 9.64)

澳门新葡8455最新网站 14

论文:WEIGHTED TRANSFORMER NETWORK FOR MACHINE TRANSLATION

地址:

论文地址 :

论文地址:

论文:Factorization tricks for LSTM networks

摘要:论文中提出了一种卷积神经网络变体的快速全可参数化的 GPU 实现。在 NORB 数据集上效果不错,测试误差在2.53 ± 0.40

微软在官方的介绍是:改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法。 通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。

无监督学习

地址:

作者提出了一个局部分布顺滑的概念,作为一个正则化的项目,来提升模型分布的顺滑。

分类

原文链接:

地址:

【嵌牛导读】:今天介绍Github上的开源项目,专门用于更新最新的研究突破,具体说来,就是什么算法在哪一个数据集上取得了state-of-the-art 的成果,包括语音、计算机视觉和NLP、迁移学习、强化学习。在这里,你可以读懂2017机器学习领域究竟在哪些方向上取得了突破,各大前沿机构和学术大牛们在哪些方向上发力。比如,Hinton掀起深度学习革命的Capsule 网络、再到谷歌的“一个模型学习所有”“Attention is all you need”以及Facebook在机器翻译上的屡次突破,以及让大家兴奋的AlphaGo Zero等等。

地址:

地址:

3.  视觉问题回答

论文:PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION  (2017年)

【嵌牛正文】:

CUHK-03 (Rank-1: 84.6 mAP: 87.4)

论文:Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets

Progressive Growing of GANs for Improved Quality, Stability, and Variation”。其中“Progressive Growing”指的是先训练4x4的网络,然后训练8x8,不断增大,最终达到1024x1024。作者使用的数据集以CelebA为基础,还进行了额外的处理,包括超分辨率、模糊背景、对齐。

澳门新葡8455最新网站 ,1. 语言建模

提出了两个带映射的LSTM修正单元,来减少参数数量和加快训练速度。

地址:

Capsule 是一组神经元,其输入输出向量表示特定实体类型的实例化参数我们使用输入输出向量的长度表征实体存在的概率,向量的方向表示实例化参数(即实体的某些图形属性)。同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。

斯坦福问答数据集(SQuAD)是一个新兴阅读理解数据集,其问答基于维基百科,由众包方式完成。

2. 实例分割

论文:Squeeze-and-Excitation Networks

论文地址:

机器翻译

本文将语言建模作为一个矩阵分解问题,并表明基于Softmax的模型(包括大多数神经语言模型)的表达受到Softmax瓶颈的限制。 鉴于自然语言高度依赖于上下文,这意味着在实践中Softmax与分布式词嵌入没有足够的能力来建模自然语言。 本文提出了一个简单有效的解决方法,并且将Penn Treebank和WikiText-2中的perplexities分别提高到47.69和40.68

论文:Globally Normalized Transition-Based Neural Networks

论文地址 :

论文:NON-AUTOREGRESSIVE NEURAL MACHINE TRANSLATION

地址:

地址:

地址:

论文:High-Performance Neural Networks for Visual Object Classification

论文:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

地址:

NLP

论文:Learning Structured Text Representations

论文地址:

地址:

论文提出一个概念上简单灵活通用的物体分割框架。这种叫做Mask R-CNN的方法,拓展了Faster RNN。在COCO数据集上的平均精准度达到37.1%。

CUB-200-2011(Test Accuracy: 84.4)

论文:Interactive AoA Reader (ensemble)

论文: 无监督机器翻译:是使用单语语料(2017年)

论文:微软2017年发布的对话语音识别系统

地址:

论文:Named Entity Recognition in Twitter using Images and Text

在WMT 2014英德翻译任务和英法翻译任务中,模型的性能分别提高到28.4 BLEU points和41.0 BLEU points

监督学习

地址:

计算机视觉 :生成模型

论文:一个模型学习一切(2017年)

1.  Speech

14020150081-卜倩

错误率:5.1%

数据集:MNIST

2.  计算机视觉

地址:

提出一个叫做fraternal dropout的技术。首先用不同的dropout mask训练两个同样的RNN,并最小化预测差异。本文评估了提出的模型,并在Penn Treebank和Wikitext-2上达到了当前最优结果

DukeMTMC-reID( Rank-1: 67.68 mAP: 47.13)

论文:NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE

1.  Speech

论文:Averaged Stochastic Gradient Descent with Weight Dropped LSTM or QRNN

作者提出了一个多模型适用的架构 MultiModel,用单一的一个深度学习模型,学会各个不同领域的多种不同任务。

地址:

数据集&准确率:

计算机视觉

半监督学习

提出了视觉问答的最新模型,在2017VOA挑战中获得冠军。整体分数达到69。

4. 自然语言推理

地址:

论文:BREAKING THE SOFTMAX BOTTLENECK: A HIGH-RANK RNN LANGUAGE MODEL

论文:FRATERNAL DROPOUT

无监督学习

得分:8.80

数据集:WMT16 (en-fr fr-en de-en en-de)  ;Multi30k-Task1(en-fr fr-en de-en en-de)

数据集:WMT EN → DE ;WMT EN → FR (BLEU);ImageNet (top-5 accuracy)

本文提出了以全球标准化的基于转换的神经网络模型,实现了语音标记、依存关系句法分析和句子压缩的当前最优结果。UAS准确度为94.08%,LAS准确度为92.15%。

一文读完GitHub30 篇顶级机器学习论文(附摘要和论文下载地址)--10

论文地址 :

地址:

本库的分类如下:

强化学习

本文由澳门新葡8455最新网站发布于互联网,转载请注明出处:打破语言障碍,挑战实时语音翻译

上一篇:你的爱豆请你出道,儿童节用代码照亮孩子回家 下一篇:没有了
猜你喜欢
热门排行
精彩图文