阮敬:大数据高端人才是怎样炼成的(6)

摘要:在大数据产业日趋火热的今天,相关高端人才稀缺成为了阻碍其进一步发展的重大因素。对于大数据高端人才的培养,国外有先例,国内有需求。首都经济贸易大学研究生院副院长阮敬认为,在培养大数据高端人才方面,我们应适当借鉴国外已有的较为成熟的培养途径,力争培养出既具备专业技能又能适应市场需求的人才。

我们来看一下大数据到底怎么练,需要练些什么。我们把各个“门派”、各个专业方向的授课内容都通过网络搜集,整理了出来。国外网站上的信息资源丰富且开放,可以查到很多详细内容,包括授课老师的简历,甚至他们曾经做过的一些具体事情。

1

这是一个无像图形,由结点、路径或边组成,结点是我们提取出来的主要文本信息。图形中的点越大,字体越大,说明其代表的信息越重要;两点间相连的线段越粗越醒目,说明它们之间的联系越紧密。如此一来各项信息的重要性及相关性都能一目了然。这是数据科学设置的一个课程,说白了就是你需要“修炼”的内容。课程是学习的必要途径,不管是在网上学还是到学校学,又或者你来听讲座,都绕不开它,光坐在家里空想肯定不行啊!

我们看图上的machine和learn两个词,它们之间的线段很粗,组合起来叫machine learning,即“机器学习”。这需要主观提炼,如果因为不熟悉理解成“学习机器”就偏了,我们讲座的目的之一就是帮大家厘清它们之间的相关关系。大数据的很多要点在于相关分析,包括变量和研究对象之间的关系等,这也是现在很多数据分析的误区。你可能知道两者之间存在关系,但具体谁影响了谁,哪个是原因哪个是结果,不一定能搞清楚。我要说明的是,现在网络上的许多诸如一张图告诉你什么或者大数据告诉你什么之类的内容,基本上都犯了一个逻辑错误,那就是大部分大数据分析都只局限在分析数据之间的关联性,而要了解因果性,还得靠其他技术去实现。

图形中罗列的机器学习、可视化、信息系统、计算机模式识别等词汇,都是计算机中常见的字眼,通过它们我们就可以大体了解到具体的学习方向和内容,从而有针对性地去下功夫学习。以此类推,其他学习方向的课程也可以通过这种形式来表现。以数据科学硕士为例,我们可以按照刚才的图形把关键词提炼出来,再通过观察这些关键词跟其他词之间的关联性的强弱,按从小到大的顺序组合并排序,这个过程需要具有专业经验的主观判断的帮助,排列之后我们就得到了课程的具体内容。需要注意的是,有的课程比较冷门,可能无法从图形中提炼出来,另外,国外好多课程的名称取得比较随意,不同课程名称对应的也许是相同的内容。

数据科学硕士有好多门必修课,就是必须具备的能力,包括机器学习、WEB数据挖掘、数据管理、统计分析、分析程序设计、系统设计等。除了必修课以外还有选修课,就是你还需要具备的其他技能。而机器学习这门课程,在必修和选修中都有提到,这是因为课程设置会因为学校的不同而有所差异,但总的来说,几乎所有的课程都跟计算机、统计、数据有关,那这些肯定就是我们“修炼”的重点。

数学是学习大数据技术的选修课。学习大数据最好有一定的数学基础,如果没有基础,学习起来会比较困难,但也不是一个无法逾越的障碍。大数据时代,人们都是用工具去梳理数据的,现在的数据量巨大,不借助工具根本不可能梳理得过来。那么,都要用到哪些工具呢?最常见的是EXCEL;其次,还有一个叫SAS的商业软件,是世界五百强企业的产品,美国《财富》杂志评选推荐的;再有,必须要了解的两款开源软件:R语言和Python。R目前是一款免费软件,搞统计的人如果不会R语言那是不可想象的。有一句话说得好,R的出现使搞统计的人终于可以使用计算机了,Python的出现使用计算机的人终于可以搞统计了。以上列举的几个工具必须要非常熟悉,因为很多学校都不会开工具课,它默认你已经掌握了。除此以外还有Hadoop,它是大数据处理的架构,现在不是很主流了,但对理解课程来说还是必须的。

责任编辑:杨雪校对:叶其英最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端