友e家娱乐官方-友e家娱乐网址-友e家娱乐登录

055-410144766

在线客服| 微信关注
当前位置: 首页 > 后期工艺 > 画册精装

西北工业大学教授谢磊:IoT时代,智能语音面临许多新的挑战|CCF-GAIR2018:友e家娱乐登录


友e家娱乐网址:(公众号:)据:2018全球人工智能和机器人峰会(CCF-GAIR)在深圳举行会议,峰会由中国计算机学会(CCF)主办,香港中文大学(深圳)主办,并得到深圳市安全区政府的大力指导。第三天,IoT专业咖啡馆云集,小米人工智能和云平台副总裁崔宝秋公开了关于小米IoT布局和AI战略布局的报告,随后,与小米在语音识别领域进行了深度合作,西北工业大学师雷教授以“祝贺IoT时代智能语音的新挑战”为主题,公开了精彩的演讲。史磊指出,现在是智能语音相互发展的黄金时期。

但是语音人才相当不足,语音人才在市场上得到很高的价格。同时,学校的科研面向未来,但缺乏“大数据”和“大产力”,史磊明确提出了加强校企深度合作、融合产学研究的方案。

随着IoT时代的到来,语音识别领域也进入了许多新的挑战。例如,音响场景在接近近近近墙的转换中,将语音交互的鲁棒性带入了前所未有的挑战。语音标记需要动员大量的手动工作,需要很长时间,新场景的模特训练费用相当高。

友e家娱乐官方

(威廉莎士比亚、温斯顿、语音、语音、语音、语音、语音、语音、语音、语音)另外,语调和小语种识别以少量数据为基础的模型在适应环境方面面临困难。下面在CCF-GAIR 2018中,以史磊教授的大会报告内容展开了不改变本意的编辑整理。今天我演讲的题目是“祝贺IoT时代智能语音的新挑战”。现在是智能语音的黄金时期。

我们要做好校企合作和产学融合。同时,随着IoT时代的到来,学术界仍然存在许多挑战,需要解决问题。

最后,我将说明我们最近与小米合作的一些成果。智能家庭或智能家庭是物联网的典型场景,在这个场景中,据说各种设备连接到互联网。

(威廉莎士比亚、温斯顿、智能家居、智能家居、智能家居、智能家居、智能家居)以小米为例,我们需要与智能硬件互动,语音是最重要的,自然的入口——可以一语超过目的。万物网络,大数据时代,小米有很多大数据。

学校面临着在这种大数据时代背景下如何进行研究的问题。(威廉莎士比亚、哈姆雷特、学校名言)学校主要面向人才培养、射击转向研究,但令人失望的是,我们缺乏大数据和大产力。

与工业界相比,我们不能把学校更多的数据作为小数据。那个人是西瓜,我们是芝麻。公司射击是可靠的技术,最后的目的是落地多,将技术应用于产品。

只有企业才能享受真正意义上的大数据和大产力。在这个大背景下,高校如何进行研究,在我看来,建立校企合作、产学融合、三胜(企业、学校、学生)是比较好的方法。公司通过校企合作储备人才,学生通过与公司的合作和研修磨练实力,找到优秀的工作。

学校的情况是,在大数据、大算力不足的现实中,利用财界的能力,使我们的技术得到更可靠的验证,论文最终得到实际价值的建设。我指出,学校和企业之间的合作是一件很有意义的事情。我们从2010年到现在一直与很多公司合作,包括小米这样的巨头。(大卫亚设,Northern Exposure,学校)在IoT时代,智能场景发生了变化。

以前我们在手机上开始互动,手机语音是非常重要的入口。在IoT时代,经常出现另一个语音交互场景。

以智能家庭为例,在这种情况下给语音技术带来了新的挑战。在IoT语音交互时代,我们面临的问题是远距离语音识别,其健壮性是最重要的挑战。随着近在咫尺,音响场景不断变化,包括声音脉冲、目标移动、房间回响、背景噪音、声源干扰等。别人同时说话不会妨碍,因为说了人的转换,所以妨碍源不变。

这些都会给语音识别带来很大的挑战。我们以后不会用深度自学技术来说明如何解决房间混响影响语音识别的问题。(约翰肯尼迪,自学,自学,自学,自学,自学)另一个挑战是数据和计算资源不足,资源低的剧本。人们经常听到业界的人说“人工智能有多少人力,有多少智能”。

(威廉莎士比亚、人工智能、人工智能、人工智能。)我们应该有大量的显示数据,这些数据完成了各种机器学习任务,包括语音识别。(威廉莎士比亚、温斯顿、语音、语音、语音、语音、语音、语音、语音、语音)数据显示费时费力。

能否进一步增加人力,能否增加模特训练使用的显示数据,防止大量人力是一个重要问题。另一方面,在IoT时代,很多运算会从云到云端(例如语音聊天作业)发生变化,但末端的资源可能会非常有限。模型越小,计算得越少,可能需要满足低功耗市场需求。(大卫亚设、Northern Exposure(美国电视剧)和Northern Exposure(美国电视剧))稍后我会说明轻量级语音修补方案。

口音也是个问题如果口音不是特别轻,语音识别效果还是很浅薄的。如果口音比较轻,语音识别效果就不会大打折扣。

语言杂物也是一个问题。如果你对机器说“今天买了一个应用程序”,你会很清楚的。现有技术是通过大量的数据应用领域解决这些问题,提高模型的健壮性。

另一个问题是小语种。如果小米想拓展国际化市场,很多外语物种需要语音识别,但我们可能没有那么多标记数据,甚至有些语言缺乏语音语言学的专业科学知识。一开始可能连发音词典都没有。

对于这种“低资源”,以现有模型为基础,以少量数据为基础适应模型,解决小语言没有数据、没有专业科学知识的语音交互,也是一个有一些探索的问题。稍后,我将根据少量的人类数据来说明扩大模型适应的任务,以提高所有人的语音识别体验。当然,这个方案可以扩展成小语言。接下来,为了应对上面明确提出的挑战,我将重点说明最近与小米合作的三个研究结果。

一个是深度自学,消除问题语音识别中的反响。第二,基于注意机制的轻量级语音聊天;第三,创造个性化的语音识别。以三项工作为基础的论文都被任用在语音研究的主力会议Interspeech2018上。首先,回响。

语音交互从进入转向院长,房间混响沦为影响语音识别性能的重要问题,目前非常热的分解,试图应对网络(GAN)解决问题,解决混响问题。在语音交互过程中,我的声音除了以直击声到达对方耳朵外,从各种反射面发出的光也会同时传到对方耳朵里。(威廉莎士比亚、哈姆雷特、语音)()声音由直呼、早期光线、晚期回声组成。声音的传输和传播,从听声源中流出,不会在房间里等很长时间。

从这个动作可以看出,所有的小圆点都是一个声音粒子。混响对语音识别性能有相当严重的影响。右图是鱼道,在整洁的情况下,共振峰非常明显,右图是被混响污染的鱼道,可以看到共振峰相当严重的欧美现象,共振峰对语音识别最重要。

这种共振峰污染对语音识别准确度没有严重影响。从一组汉语测试中可以看出,简洁的情况下,单词错误率提高到7.86%,有反响的情况下,单词错误率提高到23.85%,即使使用多条件训练(MCT)在教育数据中再加上有反响的语音,错误率也不会下降到16.02%,但与简洁的语音情况相比,仍然相当可观。今天,我们尝试用深度自学来解决问题,消除反响。

友e家娱乐登录

用深度自学消除反响是一个非常直观的解决方案。深度神经网络的特点是具有多层非线性自学能力,可以重返任务,自学从带回声的语音输入到无回声的简洁语音输入的同构。(威廉莎士比亚,《北方执行报》(Northern Exposure))。

我们可以通过有很多整齐的语音结构的混响语音数据来训练这种同构网络。在使用深度神经网络消除反响的过程中,我们试图通过分解来应对网络,从而提高效果。(约翰肯尼迪,Northern Exposure(美国电视)),分解反应网络一般由两个网络组成。

一个是生成器,另一个是判断器。以假钞制造商和警察之间的博弈论来看,这张图表明分解反应网络特别直观。

左边是假钞伪造者(即发生器),他将生产假钞。右边是警察(即判断器),警察负责管理是真币还是假币。假币假币者生产的假币交给警察,警察根据自己的经验对假币进行区分,将Loss交给假币假币者,假币假币者进行改善。

经过多次递归博弈论过程,假币最终变得更加真实,可以看穿警察。通过这种想法可以解决消除反响的问题。通过回声语音发生器消除回声,传递给判断者,判断这是简洁的声音还是混响声音,通过上述递归博弈论过程训练出来的发生器最终超过了非常好的混响效果。

以前也有过相关的事情,但我们做的更为精细。我们的结论是,首先,与其他网络类型相比,生成器网络被调整为LSTM网络效果。因为它本身具有很强的时间建模功能,所以混响和时间非常相关。如果网络层数量比较浅,重新添加误差网络将进一步提高效果。

此外,在网络培训过程中,将两个网络(G和D)改造成同一个mini-Batch的数据,对取得更好的结果至关重要。实验数据集中,根据语音识别,GAN需要消除反响,使14-19%的比较者错误率上升。最后,在MCT多条件训练的情况下,可以将单词错误率从16%进一步降低到13%,关注我们的论文,获得更好的细节。

第二,水兴万物。以“小爱同学”为例,它已经无处不在,大家都已经以“小爱同学”习惯了苏兴小米手机和扬声器。

在水兴任务中,我们需要水兴亲和率很低,同时减少虚惊率。我说“小爱同学”,如果不钓鱼不犯错误,我会拒绝接受。我没有说“小伊同学”,但是设备被砸了,这属于错误的警察。在语音聊天任务中,我们的目的是这个指标越低越好。

友e家娱乐官方

同时,我们要做端到端,在设备上钓鱼,往往是因为非常小的型号,计算量少,计算能力限制,存储容量限制。我们试图从注意力机制的末端到末端神经网络来解决问题修补问题。这不是我们第一次使用基于注意力机制的模型来解决问题。以前,我们与小米合作,在小米电视语音搜索中超过了极低的准确度,使用了这个模型,因此可以关注我们在ICASSP2018上公开的论文。

(威廉莎士比亚,Northern Exposure(美国电视),)这次我们把注意力机制用在授精任务上,这也是一个非常直观的想法。例如,当我们听到别人叫我们的名字时,我们的“注意力”转变成了那个人的演讲。

注意力机制模型在机器翻译、语音识别、语音合成中已经顺利应用。我们顺利地将它用于语音授精任务。其优点如下:第一,消除模块化,网络需要输入钓鱼识别。

其次,模型参数少,其他修图方案需要简单的图片搜索,计算量进一步减少。第三,模型教育需要偏移。

利用基于注意力机制的语音水击模型,通过编码器、注意力机制、Softmax的融合,可以直接判断我说的是不是水击单词。在“小爱同学”内部测试集中进行了实验测试。编码器方面,CRNN网络的结果优于GRU和LSTM。

最后,在每小时一次虚惊的条件下,我们的方案拒绝错误上升6次,同时将计算量减少4倍。 第三个工作是尝试了“低资源”场景,仅用少量的数据就为所有人建立了个性化的语音识别模型,提高了所有人的语音识别体验。

右图显示,在一项测试中集中的10人是语音水平的错误率。大家都说普通话,但可以看到语音识别性能非常不平衡。可以看出,如果错误率低于100个字符,则错误率达40%,甚至56%。这种低错误率情况往往是口音问题造成的。

我国不同地区的方言和口音不同。传统的标准化语音识别声学模型经常通过不同口音人口数据的适用范围来缓解这个问题。

但是注定是“平均模型”,不能为所有人提供最高的语音识别性能。我们比较研究了说人适应的几种不同方法。

神经网络非常灵活,可以做很多工作,可以对网络展开不同的“手术”,通过改造平均模型方案,超过不同的人的适应性。第一种方法是LIN,可以在现有的语音水平大型网络声学模型的前提下创建线性转换网络,将不同人的语音输入转换为一种标准化特征,整个大网络参数不会发生任何变化。

(大卫亚设,Northern Exposure(美国电视),也就是说,它是一个线性转换网络,可以放在每个人的手机上。第二种方法是LHUC,它自学了一组为每个人个性化的参数,用于调节大的网络声音模型参数的宽度。第三种方法是在流动老师论文中用一个人的数据改编大的网络声学模型参数,即每人一个网络。

为了防止数字问题,建议使用KLD标准在模型适应过程中创建约束,使适应环境的模型的后验概率分布更像是相关的大网络模型的后验。我们自由选择了10个有湖北口音的普通话发音者,每个人用5 ~ 300句话适应模型,用100句话进行了测试。

如上图所示,无论使用上述哪种方法,语音识别错误率都平稳上升。(大卫亚设,Northern Exposure(美国电视连续剧),语音名言)总的来说,我们找到了KLD方法的配合,LHUC,LIN比较差。我们工作的另一个特点是对口音的程度进行分类,仔细观察其他方法的样子。

我们刚刚根据10名测试人员对标准化模型的语音识别错误率来区分口音程度,分为轻口音、中口音和轻口音。仔细观察这三类人的语音识别性能。我们在轻微的口音中发现LHUC的效果最差,其他两种方法不稳定,有时好有时坏。

友e家娱乐官方

这是因为轻微的口音和标准化模式之间的差异并不特别明显,所以在训练标准化模式时引入了口音数据而已。在这种情况下,用其他方法“大幅”调整网络不会产生负面影响。LHUC比较“暗”的参数调整方法反而效果最差。

在浓重的口音中,KLD和LHUC效果可以超过汉密尔顿的效果。如果存储或内存空闲是必须考虑的因素,则可以自由选择向所有人提供神经网络的更简洁的LHUC方法。

相反,可以为所有人保存调节大网络的参数。严重口音的情况下,目标发音者和标准化模型之间有很大的差异,因此需要使用目标发音者的数据来调整标准化的模型参数,并获得与目标发音者兼容的模型。

效果最差。(大卫亚设,Northern Exposure(美国电视),语言)因此,模特光训练RSI和KLD可能会超过这些目的,KLD效果更好。也就是说,图中黑线在下面平滑显示,错误率低。在我报告的最后部分,我将向大家展示最近通过深度自学展开语音减员的最新结果。

(大卫亚设,Northern Exposure(美国电视连续剧),语言)我们告诉大家,语音减振及语音强化是研究历史非常广阔的研究课题,一般采用信号处理方法来解决问题。手机也有各种减震方案和减震算法。

传统统计信号处理方法的优点是信号统计特性达到问题解决,具有稳定噪音的良好诱导能力。但是,对于不稳定类型的噪音3354,嘈杂栏中有很多不稳定的噪音3354,无法超越理想效果。我们在将深度自学应用于语音强化的同时,还将融合信号处理的科学知识,带头减少冲击。

这是记住我们在嘈杂的酒吧里谈论手机的音频,用深度自学特信号处理方法减少冲击。还听说嘈杂的背景噪音基本上被清除了,这是可以通过深度自学进行语音鉴别的新水平。会议结束后,目前智能扬声器是否在简单的任务进行上没有太多问题,没有技术早产儿能否直接进入市场,谢磊的问题是智能扬声器是最重要的入口IoT入口和流量入口。

这就是为什么每个人都在版面上制作扬声器。市场上总会出现“白盒光明日报”的局面,但每个人都在部署新的“流量经济”,抢入口。

在技术方面,智能音箱反映了一家公司技术的“综合实力”,上面使用的技术很多,所以最适合训练。因为还有麦克风阵列技术、语音强化技术、远距离语音识别技术、语音解释和对话技术、知识库、语音合成等,以及输入内容的实力。各项技术是最重要的研究课题,必须抛光和优化。

但是对用户来说,互动体验很好,必须有必要的内容。技术发展都是一个阶段,在这个阶段超越的能力已经只能进入包括智能扬声器在内的各种智能硬件中。它超过了“可用”阶段,但到“使用”的距离仍然需要特定的技术开发。在基于智能扬声器的远距离语音交互中,语音识别的准确度仍然需要进一步提高,这需要前端方案的应对和前后引线优化。

语音合成也要更加自然和个性化,不同的人对声音的市场需求不同。另外,为了深入解释用户,需要进一步发展语义解释和对话技术。

原意解释中有很多模糊之处。例如,想穿多少就穿多少,这与上下文有关,冬天特别是在结冰的情况下,期待穿多少,但夏天想穿多少就穿多少,也就是说,我冷得不能再穿了。(阿尔伯特爱因斯坦,Northern Exposure(美国电视),季节名言)因此,这本质上与上下文相关,所以很难解释意义。

口语互动更是无力。例如,在我们聊天的过程中,说话速度快,音少,字问题少,语序反转,可能都不是规则ATENU。说话的时候,即使我的语序颠倒了,你也能听懂。中间挂很多东西你都需要听懂,但机器解释的时候会成为大问题。

(威廉莎士比亚、哈姆雷特、语言)因此,这块要通过多种技术突破和各模块的领先优化来解决问题。但是我坚信语音的入口不需要批评。

这就是为什么每栋房子都布置好了。原创文章,发布许可禁令。下面,我们来听一下关于刊登的注意事项。-友e家娱乐网址。

本文来源:友e家娱乐官方-www.luisgarciamedia.com

客户案例Customer case
  • 密室逃脱越狱100个房间之五第2关怎么过
  • 友e家娱乐网址:不要对我放电 《电磁博士》评测
  • 友e家娱乐登录_九重天章节扩展《少年西游记》3.17新版更新
  • 友e家娱乐官方-大蛇丸确定上线火影忍者手游 特权商店产出自来也碎片
  • 【友e家娱乐网址】波斯尼亚克族一前军事领导人被判12年
  • 友e家娱乐登录-华丽创新 《传世三国》评测
  • 友e家娱乐官方_QQ飞车手游霸天虎价格多少 霸天虎要多少点券
  • 像素生存者2宠物火人属性详解 宠物大全介绍-友e家娱乐登录
  • 友e家娱乐网址_老公溜了鸭第20关攻略 老公溜了鸭第二十关怎么过
  • 《永恒边境》9月9日首测 带你领略异星之美_友e家娱乐官方