谷歌是如何用神经网络改造Android的

发布时间：2020-02-11 02:16:06 阅读：次来源：路障厂家

谷歌用基于“神经网络”的语音识别系统改造Android

北京时间2月19日消息，当谷歌开发最新版的Android移动操作系统时，这家网络巨头对这个操作系统解读用户语音命令的方式作出了一些重大的改变。当时谷歌基于所谓的“神经网络”安装了一个语音识别系统，这个“神经网络”是一种计算机化的学习系统，在很大程度上能像人脑那样运作。

负责开发这个项目的谷歌研究科学家文森特·凡毫克(Vincent Vanhoucke)称，对许多用户来说，谷歌作出的这种改变所带来的影响非常大。“这个项目在某种程度上让我们感到惊喜，表明我们只需要改变下模式就能取得相当大的改善。”他说道。

凡毫克表示，与此前版本的Android系统相比，最新Jelly Bean语音识别系统的误差率要低25%左右，而且能让用户更加愿意使用语音命令。他表示，目前用户在使用智能手机语音服务时倾向于使用更加人类化的语言;也就是说，用户越来越不像是跟机器人对话。“这个语音识别系统正在改变人们的行为方式。”凡毫克说道。

这只是“神经网络”算法正在改变科技产品运作方式以及用户使用方式的例子之一。在二十世纪八十年代，这一领域中的研究工作曾是最热门的研究领域之一，但随后已经沉寂了多年时间，现在则已卷土重来，微软和IBM与谷歌都在探索这种算法能应用于哪些领域。

当用户向Android操作系统的语音识别软件说话时，声音频谱会被分解并发送到谷歌全球服务器“大军”中的八台电脑，随后由凡毫克及其团队开发的“神经网络”模型进行处理。谷歌非常擅长把这种庞大的计算工作分解开来，然后非常迅速地进行处理;为了做到这一点，谷歌让杰夫·迪恩(Jeff Dean)及其领导下的工程师团队负责相关工作，这个团队以善于彻底改造现代数据中心的运作方式而闻名。

“神经网络”给凡毫克等研究人员带来了一种分析海量模式——在Jelly Bean的例子中是用户语言的频谱——的方式，然后预测一种全新的模式可能代表着什么。“神经网络”这个比喻来自于生物学，神经元会与生物体中的其他细胞构成网络，允许其以专业的方式处理信号。在Jelly Bean所使用的“神经网络”中，谷歌可能通过分析庞大的现实世界数据的方式构建了多个语言运作的模式——比如说英语语音搜索请求的模式等。

“人们在很长时间里都相信——之所以会有这种想法，一部分原因是基于我们在人脑中看到的东西——想要获得一个良好的感知系统，那么你就必须使用多层功能。”多伦多大学的计算机科学教授杰弗里·辛顿(Geoffrey Hinton)说道。“但问题在于，你能如何以有效的方式来学习这些东西。”

Android系统接收语音命令，然后谷歌使用“神经网络”模式来对其进行处理，来判断用户的语音内容。谷歌的软件首先会尝试挑选出用户语音中的各个部分，也就是组成单词的不同类型的元音和辅音，这是“神经网络”的一个层面;然后谷歌软件会使用这些信息来作出更加复杂的猜测，每一层都会推动其更加接近于弄明白用户说的是什么。

“神经网络”算法还能被用来分析图像。“你想要去做的是，在像素结构中找到很微小的碎片，比如说图像中极小的一个边角。”辛顿说道。“然后你就拥有了一个特征探测层，能对极小边角之类的东西进行探测。一旦完成这项工作，那就拥有了另一个特征探测层，可以探测极小边角所组成的图像的某个部分，比如说图像一角;然后你就拥有了另一个探测层，以此类推。”

在二十世纪八十年代，“神经网络”就已经承诺会做这件事情，但辛顿指出，进行多层分析并非易事。但在2006年发生了两个重大的改变，第一个变化是辛顿及其团队找到了一种更好的方式来构建深度的“神经网络”，第二个则是低价图形处理单元出现，让专业学者能拥有一种更加便宜和迅速的方式来进行他们所需要的海量计算工作。“这让事情发生了重大的变化，原因是计算速度在突然之间就加快了三十倍。”辛顿说道。

时至今日，“神经网络”算法不仅正开始进入语音识别和成像软件领域，而且辛顿认为，这种算法将被用于人们需要作出预测的任何领域。在去年11月份，多伦多大学的一个团队曾使用“神经网络”来预测药物分子在现实世界里会如何运动。

迪恩表示，谷歌目前正在多种产品中使用“神经网络”算法——有些是实验性的，有些不是——但没有哪种产品像Jelly Bean语音识别软件那样如此深入地使用这种算法。“这种算法与图像搜索之间也存在着明显的联系。”他说道。“你将可利用图像像素来鉴别目标物体是什么。”谷歌街景服务能使用“神经网络”算法来判断这项服务所拍下来的各种物体之间的区别——举例来说，一座房子与车牌之间的区别。

去年，包括迪恩在内的谷歌研究人员开发了一个“神经网络”程序，能自我学习如何在YouTube上识别猫咪。

与此同时，微软和IBM也正在研究“神经网络”。在去年10月份，微软首席研究官里克·雷斯特(Rick Rashid)在天津展示了基于“神经网络”的语音处理软件。在演示过程中，雷斯特用英语说话，在说完每个短语后都会暂停一下。令听众感到高兴的是，微软的这个软件能同步翻译雷斯特所说的话，然后说给台下的中国听众听。这个软件甚至还能调整语调，使其听起来像是雷斯特的声音。

“这个领域中还有很多工作要做。”他说道。“但这项技术是非常有前途的。我们希望，在未来几年时间里，我们将可打破人们之间的语言障碍。就个人来说，我认为这会创造出一个更好的世界。”