计算机逐步朝人工智能靠近_科技_理论大视野_文库

原标题：深度学习：而今迈步从头越

使用海量数据来识别照片和语音并实时翻译讲话，深度学习计算机朝着真正的人工迈进了一大步。英国《自然》杂志网站近日就此进行了报道。

深度学习东山再起

2012年，位于美国加州山景城的神秘莫测的Google X实验室的研究人员用1000台计算机（共有1.6万个处理器）构建出了全球最大的电子模拟神经网络——拥有10亿个连接的人工神经网络“谷歌大脑”，并通过向其展示自YouTube视频中提取出的约1000万张静止的图像，考察其能学到什么。结果显示，在无外界指令的自发条件下，该人工神经网络自主学会了识别人脸、人体甚至猫等类别的事物。

也许这看起来只是琐碎的成就，除了表明猫的主人们热衷于上传宠物视频，导致互联网上猫的视频随处可见之外，说明不了更多问题，因此，这一发现也让记者们讪笑不已。但实际上，该成果是深度学习东山再起的一个里程碑。

这一进步也意味着，谷歌在人工智能领域（AI）又达到了一个新的高度，在业界引发广泛关注。对电脑用户而言，人工智能研究一直前景广阔，但迄今成果寥寥，不过情况慢慢发生了变化。在过去几年内，包括谷歌、苹果和IBM等在内的互联网巨擘们一直在积极争夺在深度学习方面拥有专业技术的初创公司和研究人员。

对每个消费者来说，深度学习计算机的显著进步所带来的好处包括：软件能更好地对照片进行筛查、理解语音指令并将对文本进行翻译。而对科学家和医学界人士而言，深度学习计算机能用来筛查药物，标示出大脑内真实的神经网络并预测蛋白质的功能。

“人工智能研究领域遇到的挫败可谓不可胜数，但也取得了稍许进步，或许，未来的研究会一马平川。”深度学习专家、美国纽约大学数据科学中心的主任杨乐康（音译）表示。

“接下来的几年内，很多人会投入深度学习的洪流当中。”美国加州大学伯克利分校的计算机图像识别专家吉腾德拉·马利克也认同这一观点。

不过，从长远来看，深度学习不一定会大获全胜，研究人员目前正在研究的其他技术也显示出了巨大的潜能。马利克说：“随着时间的推移，人们会知道，什么技术在何种领域表现最好。”

深度学习：让机器学会思考和做决定

在解释深度学习之前，我们需要了解什么是机器学习。机器学习是人工智能的一个分支，而在很多时候，几乎成为人工智能的代名词。简单来说，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。机器学习的发展大致经历了两次浪潮：浅层学习和深度学习。

深度学习这一技术已有30年的历史了。深度学习旨在模仿人脑的神经网络，其作用就如人类大脑里掌管知觉、运动指令、意识、语言的“新皮层”，它能自己学习辨识声音、图像和其他数据，从而帮助计算机破解一些人类几乎完全依靠直觉来解决的琐碎问题，从识别人脸到理解语言等。

深度学习本身也源于一个更古老的计算理念：神经网络。这些神经网络系统模拟的是人脑内神经细胞之间的紧密关联。这些神经细胞可以彼此沟通，互相施加影响，当把这样一个神经网络暴露在数据面前，不同神经细胞之间的关系会发生改变。这样，网络就会发展出对某个类别的输入数据作出特定反应的能力。通过这种方式，网络就拥有了学习能力，“学”到了一些东西。

“谷歌大脑”大约有100万个模拟神经细胞，模拟了10亿个连接，比此前的任何深度神经网络都要大10多倍。“谷歌大脑”项目的创办人安德鲁·恩格现在是美国斯坦福大学人工智能实验室的主任，致力于使深度学习系统再扩大10倍。

发展历程缓慢艰辛

在上世纪50年代，计算机还是新兴事物，那时，第一代人工智能研究人员就满怀期望地预测，完全成熟的人工智能很快就会到来。但随着人们慢慢认识到客观世界的极端复杂性，尤其是当人们开始接触到诸如人脸为什么是人脸而非一张面具或猴脸这样的知觉或感性问题时，这种过于乐观的想法才逐渐偃旗息鼓。

标准的机器学习以及图像识别技术依靠数以千计带标签的图片，对电脑进行初始“训练”，使电脑从一开始就对猫脸长什么样有一个概念。但图片加标签需要耗费大量人力，成千上万名研究人员耗费了数十年时间来为与计算机需要识别物体的不同特征有关的规则进行手工编码。“找出这些特征非常困难，耗费时间而且需要专业知识。”恩格说，“你不得不问自己，是否还有更好的办法，可以让人解脱出来。”

在上世纪80年代，这种更好的方式似乎是神经网络内的深度学习。这样的系统可以从头开始学习规则，而且具有令人愉悦的对称性——使用受到大脑启发的机制来完成类似大脑的功能。在这一系统中，模拟的神经细胞被组织成不同的层，当向这样的系统展示一副人脸的图片时，第一层只是注意所有黑像素和亮像素；接下来的一层可能可以意识到这些像素会形成边角；再下一层或许可以识别出横线和竖线；最后一层或许可以认出眼睛，能够意识到两只眼睛实际上出现在同一张脸上。

马利克说，与更简单的系统相比，第一个深度学习软件的表现可谓差强人意，而且使用起来还需要技巧。他说：“一直以来，神经网络都需要精细管理，而且其中充满了各种窍门和技巧。”在学习过程中，这样的系统需要被“喂食”大量的实例，就像婴儿贪婪地从周围世界中汲取大量信息一样。在上世纪80年代到90年代，还没有如现在一样多的数字信息可用，而且，计算机的运行速度也很慢，因此，深度学习软件本身非常罕见，其应用更是屈指可数。其中的一套软件由杨乐康研发，目前被银行用来阅读手写的支票。

然而，到2000年左右，情况发生了巨大的变化，似乎是“一夜之间春风来，千树万树梨花开”。2000年以来互联网的高速发展，对大数据的智能化分析和预测提出了巨大需求。包括杨乐康和加拿大多伦多大学机器学习领域的泰斗杰弗里·希顿在内的科学家确信，计算能力的增加和数字数据的大规模爆发意味着，深度学习复兴的时刻到了。希顿的一名研究生乔治·德哈尔表示：“我们想向全世界证明，这些深度学习神经网络真的有用。”

2006年，希顿和学生在顶尖学术刊物《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要信息：一、很多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；二、深度神经网络在训练上的难度，可以通过“逐层初始化”来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

最初，希顿、德哈尔和其他人利用深度学习解决了一个非常困难但从经济角度而言非常重要的语音识别任务。2009年，研究人员报告称，他们利用一组经典的数据对一套深度学习软件进行训练——3个小时的录音和语音翻译，这套深度学习软件能够精确地理解语音的内容，并将其转化为文字，精确度创下了纪录。德哈尔表示，这一进步引起了智能手机市场巨头们的极大关注，他在微软实习期间，将这套技术带到了微软。德哈尔说：“几年后，这些巨头们都开始研究深度学习。”例如，苹果手机上的声控数字助手（Siri）就是建立在深度学习的基础上。

今天，谷歌、微软等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，正是因为它们都看到了在大数据时代，更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息，并对未来或未知事件作出更精准的预测。