尊敬的各位专家,各位来宾,大家下午好,首先介绍教育大数据的时代背景和我国如何在这个领域抢占战略制高点,第二,结合我们前期的实践,介绍陕西等高等教育大数据平台。党中央国务院把发展大数据产业作为创新驱动发展的重大战略决策,国务院通过了关于促进大数据发展的行动纲要,十八届五中全会上国家决定实施大数据战略,所以开展大数据的研究已经成为我们国家今后创新驱动的一个重大的战略举措。大数据之所以蕴含着重大的价值,因为它已经成为社会科学新的方法论,成为科学研究的新范式,成为高新技术新领域和社会进步的新引擎。从大数据中我们可以获得新的知识,创造新的价值,形成新的理念,是我们未来认识世界改变世界的重要武器。
大数据已经成为我们这个时代最鲜明的特征,因而也是我们当前研究的重大任务,之所以大数据成为我们时代的特征,是因为信息技术已经深入融合到我们的社会各个活动当中,像物联网技术以及Web2.0等等新的技术,全面渗透到我们的物质世界、生活世界、精神世界的各个领域,由此形成了无与伦比的前所未有的大数据时代。数据的积累已经从量变发展到了质变。另外一方面计算机超强的计算能力也为处理大数据提供了强大的技术支撑,这两者的结合使得大数据的智能分析成为我们现实可能。分析各个领域的大数据也正是各个领域各个行业的新的重大需求,所以拥有大数据成为我们这个时代的特征,分析大数据自然也成为我们这个时代最鲜明的任务,应用大数据也是我们把握商机把握研究机会的重要的时代机遇。信息技术已经跨越了二十年以前从数字化到网络化进而目前是基于大数据深度挖掘和知识融合的智慧化处理的新的历史时期。
大数据的应用在中国应该充分发挥社会主义的优越性,本着政产学研用联动的机制,我们根本目的是从大数据中挖掘出价值,这里面核心有三个基本环节,第一从政府角度来说,要进行大数据的有效管理,制定包括安全在内的各种公共政策,这就是政府要作为,从数据的获取、标准、规范、安全、保障等等方面的研究。作为高校和科研院所来说,最核心的是要进行大数据的分析和处理,也就是智能化的挖掘、关联、融合、算法分析这些核心技术的探索和研究。作为行业和产业,作为企业界来说,要结合各自的领域,开展大数据的应用挖掘以及融合应用。所以说我们要形成一个数据是基础、平台是支撑、分析挖掘是核心,最根本的是要实现目标导向、问题驱动,实现效率的提升和经济效益社会效益的挖掘和发挥。
但是客观讲我们国家虽然在大数据领域,中央和社会都非常关注,但是在很多核心技术领域我们还没有实现自主知识产权,所以必须在未来几年内抢占大数据分析技术的制高点。这个领域包括英国、美国、德国世界顶级大国都把大数据核心技术的研究作为未来抢占大数据产业自主知识产权的一个核心制高点来探索研究。
我们有三个重要的挑战,大数据分析研究和应用面临三大挑战,我们要有清醒的认识。首先从理论和技术角度来看,传统的计算理论和传统的数据处理分析技术难以完全适用,我们在屏幕上列了两方面,一方面是大数据和传统的中小规模的数据有本质的特征上的差别。二是在传统的计算平台计算范式方面也有根本性的转折。我们知道传统的数据量是中小规模,现在都是ZB级,10的18次方超大规模的数据量。从数据的结构来说,从传统的结构化朝大凛的非结构化方向发展,从过去以静态为主朝着流数据发展,从单一的数据源朝着多元异构的方向发展,从多媒体朝着跨媒体融合的方向发展。
这些数据特征的变化使得我们传统计算理论难以适应,从计算平台和计算范式来说,从过去的集中存储向现在的各地多数据中心的分布式存储方向发展,从多线程并行朝着多机协同的方向发展,从存储和计算相分离朝着数据和计算紧密深度融合的方向发展,从计算密集型或者数据密集型朝着两者混合的密集型方向发展,从静态全量计算朝着动态流式计算的方向发展,这些变化都是大数据分析中面临着理论和计算方面的挑战。在大数据分析与处理方面核心技术严重缺乏,我们熟悉的大数据处理核心技术的底层的核心软件、核心系统,像Spark、Hadood、Hbase这些著名的开源商用软件几乎全是国外的垄断,我们国家在这个领域缺乏自己的自主知识产权。
第三,难以适配工程化应用的需求,比如大数据算法在工程化技术方面还处于基本空白状态,我们虽然有很多好的大数据算法和核心技术,但是应用到实际当中工程方面的适配还处于空白或者盲点。另外缺乏适用于大数据分析的工程化工具和快速的部署方法手段,核心技术与产业需求存在缝隙,缺乏面向行业的智能大数据决策支持工具和成熟的工程化解决方案,这些方面都是我们今后研究的重点和难点。
所以在这样大的背景下,国家发改委去年成立了十几个大数据方面的工程实验室,西安交通大学也申请到了一个大数据分析技术国家工程实验室,这个国家工程实验室的目标就是聚集国内外的大数据分析研究领域的精锐力量,在大数据的基础算法、核心技术、数据产品研制、行业工程应用特别是高端人才培养方面打造国内一流的科研和人才培养的平台。
为此我们学校搭建了一个230万亿次中西部地区性能最高的高性能计算平台,这个平台现在已经投入到实际应用,也为我们大数据的分析研究以及工程化应用提供了强大的支撑平台。
下面介绍一下国家工程实验室在过去几年在教育领域大数据的研究应用方面所做的工作。第一,陕西省高等教育大数据平台的研究与应用。西安交通大学为全省建立了高等教育大数据的汇聚分析和应用的数据中心,可以把全省所有高校的办学状态数据、政府管理部门的各方面的教育统计数据以及互联网上发布的有关教育的数据汇聚到一起,在这个平台上不仅有办学的管理状态数据,而且有各类慕课课程资源以及师生的信息管理平台,还有大量的互联网开放数据聚集在这个平台中。在这个平台上我们面向教育主管部门、高校开放用户提供各种各样的学习、管理、质询、统计分析等应用,这个平台的数据还可以跟教育部评估中心、教育部规划司、财务司、学生司等等相关司局进行互联互通,打通了数据之间的壁垒问题。
在这个基础上,我们实现了全省高等教育数据的汇聚,打破了各高校数据的孤岛。另外可以建立横向关联比较分析、纵向自我历史比较分析,提供高校、政府管理部门、社会科学精准的数据服务,以及为他们的科学服务提供分析。
目前通过近两年的努力已经把管理业务、教学质量、各种政府的统计类数据、高校的对接类数据全部融合到一起,已经采集了5237万条的各类数据,真正形成了全省的高等教育大数据的支撑平台。
在这个平台上,我们开展了四项典型应用,包括为全省本科高校进行教学质量的审核评估工作,运用互联网+大数据技术建成了覆盖全省高等职业教育本科教育和研究生教育包含办学条件、师资队伍、学科专业、课程教学、毕业就业等全方位一体化的质量监测网络,省级高等教育监测的大数据平台,开展了用数据和事实说话的省级学校两级高等教育的质量常态监控。这个平台目前已经全面投入到全省的应用当中。
第二,服务陕西省“一流专业”申报、评审与评估这些方面的基础工作,这个工作现在把全省的教学状态的数据全部收集到这个系统里。
第三是开展陕西省教育经费绩效分析与评估,这项工作我们已经进行了三年,对各个大学办学的基本绩效以及办学的成效进行实时在线的科学精准的统计分析,为政府决策绩效奖励提供支撑服务。
第四,毕业生就业质量的跟踪和评价。已经建成了全省就业质量大数据分析应用服务,并且以这个系统为基础,发布高校毕业生就业状况的报告,过去要大量的人工工作,现在基本上在这套系统上自动生成就业质量报告。
第二个典型应用是MOOCU中国平台在现实上的应用。MOOC中国在2015年元月在改革开放诞生地深圳,我们国内最好的37所大学联合起来和奥鹏远程教育公共服务体系共同成立MOOC中国联盟,为实现中国高等教育走向世界探索互联网教育公共服务新模式采取的一项重大决策。
这个平台的基本目标是以国家利益为导向,适应中国高等教育走向国际化的竞争需要,也是满足现在互联网时代学习者终身学习开放学习的需求。我们的目标和理念是做政府想做社会愿做但是单一高校做不了的事情,根本目的是打造互联网教育公共服务体系的2.0版本。目前这个联盟已经有117所高校加盟,超过10000门视频课程,超过10000注册用户,300经营讲师,收集客户端下载量超过900万。MOOC中国这个平台正在为服务国家一带一路的人才培养提供服务,我们在MOOC中国的平台基础上成立了由中国工程院和联合国教科文组织授予我们的国际工程科学支持的培训,在泰国建立东盟中心,面向一带一路开展包含中国文化、语言、教育、技术等特色资源,在这个特色资源中我们特别构建了六大主题数据库,包括一带一路国家的国情咨文数据库、历史文化数据库、人口环境数据库、工业经济、政策法规、教育科技六大主题,为中国的企业走向一带一路提供各种服务。
在这个基础上我们专门开展一带一路的人才培养,和联合国教科文组织合作举办丝路工程科技发展专项培训。通过互动交流、实践应用等多种形式对丝路国家来华留学的留学生以及中国企业走向一带一路国家发展的工程技术人才培养培训各种各样的技术人才。目前我们已经面向巴基斯坦、印度、尼泊尔等30多个国家开展一带一路方面的人才培养,右边两张是我们给学生培训结业以后的培训证书,这个证书由联合国教科文组织以及中国工程院、西安交通大学联合颁发的培训证书。这个平台在技术方面突破了知识地图导航学习、知识汇聚核心关键技术,为用户提供可视化的知识声音导向的个性化资源推荐和服务。
课堂教学质量监测大数据平台。我们通过把课堂教学质量的实时各类数据,包括学生评价的数据、督导评价的数据等实时录入这个大数据平台。在这个平台上我们可以实现从过去对课堂教学质量模糊宏观的评价,通过大数据的精准分析实现量化精准的评价,从过去部分随机抽查课堂教学变成全面覆盖,从过去期中期末两次变成实时、常态、持续的监测,从过去的事后评价变为实时、动态的在线评价。所以在这样的基础上,我们一方面可以发现挖掘一些教学质量好受学生欢迎的老师,也可以对不负责任课堂教学质量不高的老师提出负面惩戒,实现精准督导。
右边是我们的基本界面,课堂教学已经实现了基于物联网+云计算的技术智慧管理,解决了数据的精准采集,实现了教学秩序的严肃规范,让老师和学生一起共同敬畏课堂。这个数据量非常大,我们要采集18万条数据,视频和照片数据量达到1个多G。
在这个平台上我们可以清晰明了地掌握学生去哪儿了,学生喜欢上哪些课,可以精准地统计学生的到课率、教师的听课和教学质量的实际情况,给各个院各个系各个专业提出课堂教学质量的综合评价的排队。在这个平台上我们可以及时发现问题课堂,实现精准督导,为专家评价、学生评教、到课率、课堂现场提供有效的数据支撑。正是在这样平台的支撑下,西安交通大约的本科教学质量在全面大幅度提升,以去年为例,去年应届毕业生3290人,其中考取国内外名校的研究生达到2242人,有2/3以上的应届本科毕业生考取国内外研究生,说明整体人才培养质量在大数据的分析之上可以实现有效的提升。
各位专家,各位领导,我们这个实验室始终瞄准教育大数据的重大需求,聚集产学研国内外的精锐力量,将大数据分析技术国家工程实验室努力建成成为一流的大叔据基础算法和核心算法研究、数据产品研制和大数据产品推广应用高端人才培养与培训的国家级基地,也希望和各位同仁相互合作,共同交流,共同提升我们国家大数据技术研制的核心竞争力,为我们国家大数据产业的发展做出新的更大的贡献,谢谢大家。