芥末堆芥末堆

【GET2017】慕华尚测刘颖:不要以为有了大数据就有了一切

作者:东耳 发布时间:

【GET2017】慕华尚测刘颖:不要以为有了大数据就有了一切

作者:东耳 发布时间:

摘要:尤其是如果你要搞测评的话,你对测量学、数据分析、神经网络的算法等,这些都需要做全面的理解,不要以为有了大数据就是一切。

WechatIMG664.jpeg

芥末堆 11月15日东耳 报道

在以“共建·让更好的教育来得更快”为主题的GET2017教育科技大会“学术发展论坛”上,慕华尚测CEO刘颖发表了“大数据与教育评价”的主题演讲。

五六年前就在谈大数据的概念,那个时候我去谈这个概念觉得自己很高大上,因为还没有太多的人知道大数据,尤其不知道大数据如何在评价当中应用。但是到今天,我们再看任何一家公司如果不谈自己跟大数据、互联网、人工智能做结合或者有这样的基因,都会被鄙视。

因为我学教育测量,天天算数据。在90年代,我觉得那个时候我们有很多大数据,为什么大家不提大数据,为什么到今天大家这么热议大数据的概念?我想也许大数据时代最主要的特征,不仅仅是由于互联网我们获取数据的量可以迅速地增加,更重要的是我们处于大数据时代。最主要的标记就我们已经有了一种意识,包括很多的教育同行们,这个意识就是利用各种手段去采集、分析、应用数据的意识。

但是大数据究竟对教育有什么样的影响,因为我一直是做教育评价的,我想结合教育评价这个比较窄的领域谈一谈大数据在这个领域的应用。大数据时代来了以后,教育评价发生了很大的变革,这其中体现在四个方面:

从注重终结性评价导向注重过程性的评价

从终结性评价到过程性评价到底是评价了一种什么样的变革?在座各位有谁知道终结性评价的典型的考试是什么?高考。高考是终结性评价大家最熟知的一个代表。无论是中考、高考,它作为终结性评价最主要的目的是给一个水平的评定或者是做人才的选拔。你考了580分,我不在意你哪里对、哪里错,我只知道考了这个分数,你能上什么大学,你能达到一个什么样的等级。

在刚刚恢复高考到八九十年代的时候,更多注重的是结果性评价,因为我们技术手段只能支撑我们做终结性的评价。但今天,由于互联网、大数据、人工智能的发展,我们可以把评价同终结性的改变为我们可以用评价来指导学生更优化他的学习路径,可以指导老师去提升他的教学质量。

前两天我们刚刚在四川德阳市完成了一个过程性评价的案例,四川德阳整个的教学能力,包括师资力量比北京还是要偏薄弱一些。

所以他们引入了过程性评价,就是从学生初一开始阶段性的对学生进行测试,进行各种方式的评价手段的数据采集,之后给每一个学校、每一个班级、每一个老师、每一个学生相应的评价报告。之后我们有专业人员给老师、校长讲解这个学校从我们的数据里面看来,在哪些教学方面还薄弱,哪些数据显示你们的教学手段可能还有提升的空间,进而我们在引进北京的一些比较好的专家团队,对他们进行教学的指导和质量提升的帮扶。

事实上这样的过程性评价的案例,因为结果我们还没有完成看到,没有最终足够长的时间,但是我们可以看到,家长欢欣鼓舞,老师原来是非常沉闷的,现在变得非常激情高昂,因为他们觉得我们通过这个评价,我们更好地了解了我的问题,所以他们更好地去提升或者是有了这样的教学质量提升的动力。

屏幕快照 2017-11-15 下午4.43.03.png

所以这就是我们今天谈的过程性的评价带来的更多是反馈、诊断以及及时的调整。这是只有大数据、互联网才能实现的。我们如果在互联网上学习的话,任何一个学生包括有些学校做翻转课堂,都是学前测。学前测试以后给他匹配相应的教师,找到问题点。进而再给他推送向的学习内容,在学习过程中我们进行的过程性的评价,过程行为的数据搜集和评价,进而形成学生活动的数据库和他测评的数据库。

通过这样的方式在不断地迭代,给他推送的内容、推送的试题、匹配的老师,使得整个互联网的教育变成一个非常个性化、非常良性的运转的机制。这就是典型的过程性评价,而且是偏实时的过程性评价的一种模式。

学生的学业评价越来越高效和精准

对于学生的学业评价现在大家探讨的是最多的,因为我经常听到很多企业说我们已经把学生的学习的知识点拆到纳米级,还有夸克级,也就是说现在由于互联网大数据的技术,使得大家在学业上的评价可以达到很小的颗粒度,可以很容易地去诊断最小颗粒度上学生存在的学习的问题或者是薄弱点。这个要借助神经网络建立知识图谱,通过构建知识点之间的一个关联,进而通过知识点间的概率关系,通过某一个点就可以带动一个面,通过某几个知识点就可以判断其他知识点掌握的情况。

屏幕快照 2017-11-15 下午4.42.50.png

所谓的知识图谱神经网络,不是所有的学科都可以构建知识的神经网络的,他们之间未必都是这种神经网络的关联。比如说语文学科,语文学科除了小学阶段以知识为导向,在初中尤其是小高段,到初中高中段,基本上是能力导向的,所以很难去拆借所谓的知识点,再把它建立所谓的知识点的神经网络图谱。

对于学业评价也是,像数学、物理、化学这种逻辑性比较强的,我们可以通过神经网络的技术提升评价的效率、精准度,现在通过IRT技术+神经网络技术,还有认知诊断技术,可以大大缩短我们对知识关联度比较高的学科的诊断效率。但是对于特别知识点比较零散的,尤其是语文这样的学科,可能要借助自适应测试来解决测量的精准度和效率的问题。

学生非学业的评价的手段变得更多元

认知诊断的技术主要目是提升测量的精度和效率,更快、更精准地诊断学生知识点或者是能力点存在的问题,但是做法是什么?以前我们评价最主要的是考试,任何一张卷子,我们是不分析70分和70分之间有什么差别,后来我们开始分析他们是有差别的,有的得70分是前面容易题错了,后面难题对了,有的是前面容易题对了,后面难题错了。这是有差别的。

后来我们又意识到每个试题上面是代表一个知识点的,我们可以精细地诊断到知识点,再后来我们发现很多的题目都是客观选择类的试题,他没有选对选正确的选项,是不是意味错误的选项就不能够提供有效的证据和信息呢?其实不是如果我们把一道题设计好了,一共四个选项,有一个选项正确答案不说了,肯定掌握这个知识点或者是这两个知识点,但是如果有一个ABC,假如说D是正确选项,那么ABC的设计该怎么设计?假设这道设计考两个知识点,如果答D是AB都会,因为是正确答案,如果把A答案设计为A会B不会,是得出了A这个选项,如果B会A不会,是B这个选项,如果两个都不会就是C这个选项,大家想一下是不是我们每个人的错误的答案信息也过程了一个诊断推理要素?所以当若干个ABC组合的题,以及答案给我们反馈的信息,我们就可以通过反馈信息矩阵,我们就能够去推理,这个孩子可能在ABC三个知识点上哪个点存在问题。

屏幕快照 2017-11-15 下午4.44.26.png

所以目前来说,认知诊断的技术其实它的根就是在试题的设计方面,原来有些专家把正确答案一写,正确答案是4,A是1,B是2,C是3,没有人会做出123这个答案,因为没有去真正思考怎么利用错误选项。今天我们认知诊断的技术更多地强调老师要去设计这个错误答案,这就是这些年大家被炒的比较热的,通过认识诊断,通过自适应的技术,通过神经网络的技术,如何来提高我们学业诊断的效率和精度。

大家比较强调大数据的颗粒化,比如说知识点的颗粒化、大数据的应用,其实我特别要呼吁一点,教育的本质是人,不是一个冷冰冰的机器。通过一个知识点拆的很细,发现你知识点不行,我给你推送知识点,你的成绩就能变好。问题是这个人是很奇怪的一个动物,我根本不想学,你给我推送再多再精准的东西也不能帮我提升。

所以现在我们从教育测量或者是整个教育领域,我们更多地除了关注学生的智力因素、学业因素之外,在教育提升方面,学生的学业提升方面,还会更多地关注非学业的因素,比如说他的动机、他的学习的兴趣、学习的潜能,包括品德心理健康等。这是我们很大的一部分去影响他学业成绩的影响因素。

因为,大数据给我们提供了很多的这样一个采集这一类数据的便利性和这样的一个机会,包括我们采集这些信息以后可以进行综合的分析,比如说我们可以看到,现在有很多的生物反馈仪,有头上带着一个设备,我们就可以通过脑电波监测学生、孩子的注意力的集中度、自控力。

同时,我们通过在线学习他的鼠标滑的轨迹,停留的时长,一些行为的表现,我们可以去推断,他对这一门线上课程的学习的兴趣度到底是怎么样。同时,我们还通过一些眼动的监测来看他的注意力、兴趣度等。

其实在3个月前我们刚刚完成了西交大的一个项目,西安交大应该怎么去选拔少年班的孩子,少年班的孩子因为他们相当于初中生就要上大学了,所以对于他们的心理的素质要求,承压能力要求都是很高。所以,在这个考核过程中,我们引入了压力测试的一个仪器,我们去采集学生的精神上的压力和心理压力的指标,这些数据我们也都可以采集过来。

再一个就是随着互联网技术的发展,我们可以把一些比较敏感的,像品德测试的测量。我们用360度的方式快速的解决,我们还可以通过互联网、计算机来实现人格测验的,人格类、性格类测试的自适应化。

这些都是我们说对于学生的非学业因素的评价,手段越来越多元,我们也越来越有意识的去采用各种不同的设备去采集相关的非学业的数据,目的只有一个,去找到真正影响这个孩子,不论是学习成绩其是他的学业发展,整个最重要的因素是什么。

我们常听一句话,“外因要靠内因来起作用”,只有你把孩子真正的学习动力、学习兴趣把它激发了、调动了你后边所有所谓的诊断、推送才有意义,不然他没有学习的动力你推的再精准也没有用。

对于教师的评价也越来越立体化

原来我们只关注学生的学业表现,以及表示本身的能力跟态度的评估,但是现在有一块已经越来越热门,课堂录像的分析。教师的评价也进入了一个过程性的评价,比如说我们在通过录像的分析去解析学生在课堂中注意力的集中度,平均注意力集中的时长学生发言的积极性,学生回答问题的正确率等。

通过课堂行为的这些数据采集来加入到教师评价的这样一个要素当中,而课堂的整个分析已经在教师评价中,越来越受关注,这个是我们说的教师的评价。

大数据确实对于我们评价影响很大,无论是学业的,非学业的教师的评价,然而互联网、大数据对于教育的评价,真的不是万能的。

屏幕快照 2017-11-15 下午4.44.42.png

很多公司说我有大数据,我可以怎么怎么样,其实还有很多的时候,我也会跟一些朋友去辩论说,你看我们要采集数据到越小颗粒度,越好。然后我们要到他在家的练习的场景,随时给他评价。

但是这里要小心,他在家里能够很好地完成一道试题,你如何去屏蔽掉他的一些影响因素或者是数据的噪音,比如说是抄的还是家长帮他完成的,还是他花了很长时间的。因为真正的评价,一定是在规定的时间里面,规定的任务量,然后去评价你学业的表现或者是学科的表现。所以,这些噪音我们如何把它屏蔽掉?有些数据的采集得出一些结论,我们要小心再小心,不是大数据专家、算法专家就可以颠覆教育。

所以,我这里有一个比较强烈的观点,没有教育学、测量学(至少是教育评价领域)的支撑,大数据没有办法实现建模,这个算法就很难发挥作用。

就像我们经常听的一个大数据的故事,说有一群大数据专家,他们的数据发掘、发现一个很有价值的信息,得糖尿病的人特别喜欢买冰箱,得糖尿病和买冰箱的人关联度特别高,这个数据得出来数据专家怎么也没有办法去解释,为什么得糖尿病的人特别喜欢买冰箱呢?后来随便找来一个医生,医生就很好解释这个问题,得糖尿病的人都要打胰岛素,而胰岛素的存储必须要放在冰箱里。所以,你再去看看这个数据,而且他们买的肯定不是大冰箱,还是小冰箱,你再进一步研究一下,果然如此。

其实这个例子说明了一个问题,我们光是讲大数据,没有基础的教育原理、理论、测量理论的支撑,就算算出了这个大数据,也无法解释它。所以,大家强调大数据的时候,我特别希望大家还要加强对教育的基本理论建模的学习。尤其是在做评价的时候,数据不在于大,有时候干净比大还要重要,因为去噪音这个难度还是比较大的,你没有办法屏蔽这些因素。

目前我们看到对于评价来说,有很多作文批改、阅卷,这对于目前的大数据来说还是一个难题,非文本数据的解析和识别依旧是存在的,尤其是中文,我们还是没有办法,还是要有一段时间去挑战。

数据推论的错误特别常见。我曾经看过一个数据分析报告,他们调查了很多因素,然后把每一个因素跟学生的学业成绩做相关,然后说跟姥姥、姥爷住在一起的孩子学业成绩就好,直接做相关。其实我们要知道数据分析里面(我看到很多数据清洗、推论的问题),很多时候不是说你简单做一个相关就能得出结论。而很多时候做大数据的人包括不是太精通大数据的人,会简单地做一些错误的推论,这也是我觉得应该要去注意的一些问题,要把数据真正用透。

我们要感谢大数据,感谢人工智能,但是我们对大数据也不要顶礼膜拜,如果你做教育,你要把教育基础的理论和信息搞扎实,如果你真要玩教育大数据,尤其是如果你要搞测评的话,你对测量学、数据分析、神经网络的算法等,这些都需要做全面的理解,不要以为有了大数据就是一切。


1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源: 芥末堆
芥末堆商务合作:王老师 18710003484
  • 【GET2017】慕华尚测刘颖:不要以为有了大数据就有了一切分享二维码