阮敬:大数据高端人才是怎样炼成的(4)

摘要:在大数据产业日趋火热的今天,相关高端人才稀缺成为了阻碍其进一步发展的重大因素。对于大数据高端人才的培养,国外有先例,国内有需求。首都经济贸易大学研究生院副院长阮敬认为,在培养大数据高端人才方面,我们应适当借鉴国外已有的较为成熟的培养途径,力争培养出既具备专业技能又能适应市场需求的人才。

鉴于国外已经形成了比较完整的大数据高端人才培养体系,那我们完全可以在培养国内人才时把它借鉴过来,这样做的好处是比自己摸索来的省时省力,可以尽快突破人才培养过程中的各个壁垒。

具体要怎么借鉴?还是要靠搜集客观数据来得出结论,这也是做数据分析的基本原则。如何实现从数据得出结论呢?数据的来源在哪里?在座的大部分是学生,以我们要了解的国外大数据高端人才的培养方式为例,将来你们如果要出国的话,在择校的时候肯定会先到国外学校的官网上去浏览,了解他们有哪些项目是你可以申请的,这就是搜集数据的过程。这个工序我已经帮你们做了,就是通过网络将开设了大数据人才培养项目的学校的数据搜集起来。这些资料有文本、图片、声音、表格、数字等各种形式,叫非结构数据。对这些数据进行处理之后,我们可以把它以我们能够分析的形式呈现出来,具体怎么做属于技术问题,不是今天讨论的重点。需要说明的是,国外的院校何其多,想要全部搜集到是不可能的,这里面涉及到一个权重设置的问题。像哈佛、耶鲁、普林斯顿等名校,在大多数人心目中肯定很有分量,但更多的是那些你没听说过的学校,比如我们首都经贸大学,我自己觉得挺有名气,但保不准在座的就有人没听说过。设置权重,可以让我们的结论更加靠谱,更有说服力。

下面具体跟大家分享下我获取相关数据的途径。在搜索引擎中键入大数据(big data)、深度学习(deep learning)、商业智能(business intelligent)、计算机科学(computer science)、统计学(statistics)等与大数据分析有关的词汇,这些词汇都是专家组讨论得到的。经过统计,这些词在该搜索引擎上一共有八亿六千三百多万条搜索记录。我们把它们从网络上采集下来编个程序,整理成可供分析的数据库。另外,网络搜索有一个热度高低的问题,有的网址热度高,有的热度低,像那些一万年都没有人访问,可能也没有人更新的,我们搜集来也没有什么用处,这就需要用技术来控制数据来源。留学要耗费一定的时间和金钱,鉴于国人普遍对排名靠前的学校认可度比较高,我们可以根据最新的美国大学排名(U.S.NEWS)把排名靠前的学校按照重要程度分别设置权重,数字越大越重要或者越小越重要都可以,这个可以根据个人习惯来。

通过统计并分析数据我们可以得到哪些信息呢?包括大数据分析要修炼多少年,即需要学多长时间;再有就是要花多少钱,即学费是多少;还有具体该去哪里练,是欧洲国家还是美洲国家;另外就是你是实地学习还是在线学习,最终是要兼职还是全职等。这些都跟你想要学习什么专业,是否适合这个专业方向及今后市场的需求有关。

通过文本分析、文本聚类、特征相关度等方法,我们把各个专业门派归纳出来,对大部分开设了这些课程的学校的信息进行提炼,当然其中的某些专业可能跟市场需求并不匹配。经过研究,未来市场认可的大数据人才大概分为三类。第一类人是有相关专业权威证书的;第二类是有博士学位的;第三类是有硕士学位的。在国外,很多专业证书跟硕士学位是并行的,也就是说拿到硕士学位以后证书自然也有了。本科的专业五花八门,虽然国外的很多学校可以自己设置专业,但一般没有大数据专业,所以国外的高端人才一般被定义为硕士以上学历的人。

经过统计,截止到2016年,世界范围内有300多个学校的384个项目和大数据相关;其中博士点11个,硕士点293个,能够通过学历直接获得证书的有83个。由于数量太多,我们把它们划分为数据科学、应用统计、商业分析、商务智能、健康医疗、信息系统、MBA七类。

有些朋友可能会觉得很奇怪,这些项目里找不到大数据的字样啊!事实上并没有明确的大数据专业,有的只是大数据分析的技术;学校教授的是计算机框架该怎么搭建,硬件、软件该怎么学习,以及数据分析的套路等;把这些内容都掌握以后,还需要结合具体的业务实践来运用。所以我们不能为了做大数据去学大数据,那样学完以后也不知道该怎么操作。

刚才我们把大数据相关专业的方向分了七类,相当于七大门派,商业分析是最热门的方向,大概有97个项目。国外的商科比较多,学起来相对容易,学成以后在现实生活中的应用比较广泛,毕竟一般的商业企业用不着特别繁复的分析手段。

1

上图是我们经过信息提取之后得到的词云图,每一个大字母都代表与大数据相关的一类专业,均由许多能表现主题词的字符组合而成。比如大字母B代表的是商业分析,在这个大主题下包含着管理(Management)、技术(Skills)、市场(Marketing)、计算机(Program)、数据(Data)等跟商业活动相关的词。其中线条粗、个头大,显示突出的词汇在商业分析这个大主题中发挥着比较重要的作用。词云图是可以令数据可视化的一种工具。相对应的字母I表示的是信息系统,G指得是商务智能,D是数据科学,T是健康医疗,还有两个字母A,一个是应用统计,一个是MBA。工商管理学硕士为什么也要用到大数据分析呢?做管理如果连数据都不能掌握,那是一件不可想象的事情,一会儿我们后面会讲到。除了这七大门派以外,对大数据的学习还有一些小的分支,因为不属于主流我们就不用考虑了。

责任编辑:杨雪校对:叶其英最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端