计算机逐步朝人工智能靠近(2)

计算机逐步朝人工智能靠近(2)

在语音和图像识别领域取得巨大飞跃

当谷歌公司在其安卓智能手机操作系统上采用基于深度学习的语音识别技术后,其单词拼写的错误率下降了25%,这是语音识别领域10多年来最大的突破性进展。“我们耗费10年时间才能做到这一点。”希顿表示,这也反映了要想在这一领域取得突破是多么困难。

与此同时,恩格也说服谷歌,让他使用该公司与“谷歌大脑”有关的数据和计算机。“谷歌大脑”能从互联网视频中识别出猫的图像,这极准确而恰当地展示了无人监督学习的潜力。无人监督学习是最困难的学习任务,因为输入的信息没有附着任何解释性信息,比如姓名、标签或类别等。但恩格很快遇到了麻烦,因为很少有谷歌以外的研究人员拥有如此丰富而有力工具来开展与深度学习有关的研究。“我和很多人谈过话,很多学生沮丧地跑过来告诉我说,我又没有1000台计算机来用,我如何进行这类研究呢?”

因此,恩格回到斯坦福大学,开始利用图形处理单元(GPU,这种运行速度超快的芯片主要为游戏而研发)来研制更大、成本更低的深度学习网络,也有很多人在这么做。恩格说:“使用大约价值10万美元的硬件,我们能利用64个GPU,建造出一个拥有110亿个连接的网络。”

但这样的系统要想赢得机器视觉科学家的青睐,可能还需要“百尺竿头,更进一步”。这些机器视觉科学家希望能在标准化测试方面看到其优异的表现。马利克记得,希顿曾经问过他:“你是一个怀疑论者,什么使你如此确信深度学习系统的潜力呢?”马利克回答说:“深度学习系统在国际闻名的数据池(ImageNet)竞赛中取胜或许让我看到了其巨大的潜能。”

在该比赛中,研究团队需要训练计算机程序识别与100万张图像有关的一套数据,这些图像已被人工贴上了各类标签。经过训练后,通过让这些程序从以前未曾见过的图像中找出同样的标签来测试这些程序的性能。每一幅测试图像,程序都会给出5个答案,如果正确的答案并非其中之一,那么,这一测试就被认为是错误的。以前,获胜者们一般的出错率为25%。2012年,希顿的实验室使用深度学习获得了冠军,错误率仅为15%。

杨乐康并非这个团队的一员,不过,他说:“深度学习影响了很多方面。”这次获胜让希顿在谷歌获得了一份兼职工作,该公司2013年也使用该程序来对其谷歌+图像搜索软件进行了升级。

马利克说:“在科学领域,你经常会受到经验证据的摆弄,而这是扎扎实实的证据。”后来,他携这项技术参与另一项视觉识别竞赛,并破了纪录。很多人开始效尤这一做法:2013年,所有参加ImageNet竞赛的团队都开始使用深度学习技术。

随着深度学习技术在图像和语音识别领域不断取得突破,科学家们对用其来处理自然语言的兴趣也与日俱增,包括用其来理解人类的演说以进行转述或回答相关问题,将一种语言翻译成另一种语言等。现在,科学家们使用手写的规则和对已知的文本进行统计分析来做上述事情。深度学习在自然语言方面的最好表现在“谷歌翻译”这样的软件上得到了彰显,尽管谷歌翻译能提供可理解的结果,但是,与人类的翻译比起来,还要差很多。

总的来说,深度学习在自然语言处理方面取得的进展没有在语音图像上那么令人印象深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势。

语言学习翻译服务网站Duolingo的创办者、卡内基梅隆大学教授路易斯·冯·安表示:“在这一方面,深度学习还有很大的探索空间,从2006年图像深度学习成为学术界热门课题到2012年10月希顿在ImageNet上取得重大突破,经历了6年时间。我们需要有足够的耐心。我们也相信,深度学习在自然语言处理方面的表现会越来越好。”

在其他领域拥有巨大运用潜力

与此同时,科学家们也不断证明,深度学习在完成很多科研任务方面非常管用。希顿说:“深度网络真的很擅长在数据组中发现模式。”

2012年10月份,希顿领导的研究团队赢得了美国化学与制药公司默克公司举办的一场竞赛,竞赛的主旨是鉴别出可导致新药的分子,该团队正是采用深度学习的方法,将目标对准那些最有可能与靶标绑定的分子,从而取得成功赢得了2.2万美元的奖金。希顿说:“我们将默克公司的基准提高了15%。”美国《纽约时报》也对这一重要成果进行了详细报道。

包括美国麻省理工学院的塞巴斯蒂安·程在内的生物学家和计算研究人员目前正利用深度学习技术来帮助他们分析大脑切片的三维图像。这样的图像包含有很多揉成一团的线条,这些线条代表了神经细胞之间的连接,需要将这些线条鉴别出来,以便于对其进行标示和计数。以前,他们的做法是,招募本科生来追踪和勾勒这些线条,但让这一过程自动化是处理数十亿计连接的唯一方式。深度学习似乎是自动化的最好方式。塞巴斯蒂安·程目前正使用深度学习程序来标示视网膜内的神经细胞,接着会将得到的结果提交给志愿者进行校对。

美国华盛顿大学的计算机专家威廉姆·斯塔福-诺贝尔则使用深度学习来教导程序检查一串氨基酸并对得到的蛋白质结构进行预测。例如,不同的氨基酸序列会形成螺旋还是环;某个溶剂是否能很容易地渗入结构内的缝隙中等等。迄今为止,诺贝尔已经训练这一程序能识别小的数据组,在接下来的几个月内,他将使用包含有10万个结构的蛋白质数据库来检验这套深度学习软件的性能。

对计算机专家们而言,深度学习可能会让他们获益颇丰:德哈尔正在考虑创办深度学习公司;而杨乐康上个月被“脸谱”网站雇佣,成为该网站新成立的人工智能部门的负责人。恩格说:“深度学习不再是养在深闺无人时,目前正生逢其时,你填入的数据越多,它的表现也就越好。”不过,他也强调说:“尽管很多时候,深度学习算法都非唯一的解决办法,但它是最好的,当然也是最容易的。这也是为什么其未来拥有巨大潜力的原因。”

其他竞争性的想法

当然,也并非所有科学家都看好深度学习,他们正在尝试使用其他方法来解决问题。比如,美国华盛顿大学计算机科学与工程系教授、艾伦人工智能研究所的负责人奥伦·埃齐奥尼的目标是发明一台计算机——当给其“喂食”一堆经过扫描的教科书后,其能通过标准化的小学科学测试(如果其不断加强,最终能通过大学入学考试)。为了通过这些测试,这台计算机必须能阅读并理解图表和文本。不过,艾伦人工智能研究所如何实现这一目标还是一个未知数。但对埃齐奥尼来说,神经网络和深度学习并非他们的首选。

一个竞争性的想法是,让计算机能在基本输入事实上的基础上进行推理,而非从头开始学习事实。因此,科学家们或许会为这种计算机编写程序,让其识别“所有的女孩都是人”这样的论断。接着,当一篇提到一个女孩的文本被提交给这台计算机时,计算机能推导出这个女孩是人。但这样的计算机也有自己的问题,因为我们周围的世界太纷繁复杂,即使没有数百万个,也有数十万个这样的事实。

目前,在这方面表现最好的就是IBM公司的计算机沃森(Watson)。Watson运算更快,记忆力更好,它也懂一些人类语言中的暗喻和双关。2011年,Watson在美国最受欢迎的智力竞赛节目Jeopardy中战胜人类,获得冠军,从而声名大噪。尽管如此,IBM公司沃森解决方案实验室的科学家们对深度学习在改进模式识别方面的优异表现也产生了兴趣。

谷歌也是如此,尽管其图像标记方面的最新进展主要得益于辛顿的深度学习网络,但其他研发部门也得到了足够多的关注。2012年12月,谷歌雇佣未来学家雷·库兹韦尔做其工程部主管,库兹韦尔的主要任务是使用但不局限于深度学习的技术,来为计算机寻找不同的方式,让其能从日常经验中学习。

去年5月份,谷歌购买了一台由加拿大D-Wave公司研制而成的量子计算机。尽管从理论上而言,这台计算机能用于深度学习领域,但科学家们目前主要用其来处理非人工智能方面的任务,比如困难的数学计算等。

深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临。在应用方面,深度学习使得语音图像的智能识别和理解取得惊人进展,从而推动人工智能和人机交互大踏步前进。尽管如此,深度学习仍然还处于襁褓阶段。“它是未来的一部分。”德哈尔说,我们才刚刚开始。如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。

责任编辑:董洁校对:总编室最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端