人工智能时代:发展逻辑与治理挑战(2)

人工智能时代:发展逻辑与治理挑战(2)

算法背后的基石:数据与规则

在经历了2016年的火热之后,许多人已经可以感知到人工智能,以及支撑其运行的机器学习算法的普遍存在。无处不在的人工智能已经开始逐渐影响我们的日常生活,计算设备在“吞入”海量数据的同时,神奇地生产着与你相关的各种信息、产品与服务。

但这个过程究竟是如何发生的?建立在机器学习算法基础上的人工智能是否会不断进步乃至最终超越人类的控制?要想对这一问题做出回答,我们便不得不回到机器学习的算法本身上来。

算法本质上就是一系列指令,告诉计算机该做什么。对于传统算法而言,往往事无巨细地规定好了机器在既定条件下的既定动作;机器学习算法却是通过对已有数据的“学习”,使机器能够在与历史数据不同的新情境下做出判断。

具体而言,机器学习算法的实现方式多种多样,但就当前的技术发展而言,主要可被划分为5个类别:符号学派、联接学派、进化学派、类推学派和贝叶斯学派。每个学派都遵循不同的逻辑、以不同的理念实现机器学习的过程。

对于“符号学派”而言,所有的信息处理都可被简化为对符号的操纵,由此学习过程被简化(抽象)为基于数据和假设的规则归纳过程。在数据(即当前事实)和已有知识(即预先设定的条件)的基础上,符号学派通过“提出假设—数据验证—进一步提出新假设—归纳新规则”的过程训练机器的学习能力,并由此实现在新环境下的决策判断。符号学派固然符合经验主义的哲学认知,但通过其概念模型我们亦可以发现,其成功的关键在于数据的完整性和人为预设条件的可靠性。换言之,数据的缺失和预设条件的不合理将直接影响机器学习的输出(即决策规则的归纳)。最明显体现这一问题的例子便是罗素的“归纳主义者火鸡”:火鸡在观察10天(数据集不完整)之后得出结论(代表预设条件不合理,超过10个确认数据即接受规则),主人会在每天早上9点给它喂食;但接下来是平安夜的早餐,主人没有喂它而是宰了它。

数据和预设条件的问题不仅存在于符号学派,这同样是其他学派的共性。“联接学派”试图模拟人脑的学习过程,通过仿真神经元的联接结构,并借助反向传播算法(反馈输出与输入的对比,并以误差为基准调整参数)自动调整各个联接的权值,以最终实现学习能力。此处的关键仍然是输入数据集的完整性,以及预设条件的可靠性(例如停止反馈调节的阈值设定)。“进化学派”试图模拟人类的进化过程,在预先设定的适应度目标(例如过滤垃圾邮件算法的设计中,某个规则正确分类邮件的百分比就是适应度目标)指引下,通过交叉、实验不同的规则集合以找出与测试数据适应度最高的规则集(也即形成学习能力)。由此仍然可以看出数据与预设条件(适应度目标的设定)的重要性。“类推学派”亦是如此,其基本思想是通过判别不同场景的相似程度,来推导新场景中的合理决策。就此而言,参考数据集的完整性和不同场景相似程度的阈值设定(预设条件)依然是影响机器学习结果的关键所在。相比于前四个学派,贝叶斯学派对于数据集的规模没有太高要求,因其优势正是对于未来不确定性的学习与探索。贝叶斯算法将根据收到的新数据来持续检验既有假设成立的概率可能性,并对其进行实时调整。不过即使如此,贝叶斯算法依然受制于输入数据和调整规则。换言之,数据与人为预设条件依然是控制贝叶斯算法的关键。

事实上,如果跳出具体学派的思维束缚,每种机器学习算法都可被概括为由“表示方法、评估、优化”这三部分组成。尽管机器可以不断地自我优化以提升学习能力,且原则上可以学习任何东西,但用以评估的数据以及评估的方法和原则都是由人为决定的。也正是从这个角度讲,本文开始所提到的“机器取代人类”的可能性其实为零——尽管机器可能会变得异常复杂以致人类难以理解。

责任编辑:蔡畅校对:刘佳星最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端