芥末堆芥末堆

讲逻辑的方式探讨自适应学习系统不是K-12教育的救世主

作者:李子 发布时间:

讲逻辑的方式探讨自适应学习系统不是K-12教育的救世主

作者:李子 发布时间:

摘要:自适应学习系统的大坑你知道几个?

child-1529218_1920.jpg

(来源:pixabay

芥末堆注:

关于自适应学习系统,此前研究者冯俊晨写过两篇普及文章:《像淘宝店一样做个性化学习推荐-论莱布尼茨系统的诞生》和《为什么自适应学习系统不是K-12教育的救世主》两篇文章,系统探讨自适应学习系统。文章发出后引发一场关于自适应学习系统的讨论,而本文是作者李子对《自适应学习系统就是K12教育的救世主!》的回应。

破题

自适应学习系统,是不是K-12教育的救世主?——这个问题有三个概念需要提前明确:

(1)什么是自适应学习系统:参考此前的文章,我们这里不再普及。

(2)什么是救世主:救世主是一种形象描述,我相信大家大略有一致的体会,救世主不是一般的英雄,不是一般的参与者,不是一般的小打小闹,救世主就是救世主,是能够决定K-12教育这件事发展的角色。

(3)是不是指的是“现在是不是”还是“未来是不是”:俊晨的立论,大部分数据、方法、系统的基础,都是基于中美实证现状来说的。所以下场的同学,需要明确是基于“现在”还是“未来”,或者怎么“又现在又未来”的。

 在这三个概念之后,需要进一步明细的是K-12教育:

自适应学习系统的用武之地,K-12教育具体的场景是什么。我相信这里可以有宏大完整的拆解,但我们先用国内比较熟悉的“练、学、教”三个场景来逐步深入或加以区分。尤其要指出,这里排除了“计算机自适应测评”(CAT)这个方向,这是因为教育测量和评价可以另起炉灶来讨论,先不要放到自适应学习系统中来。

但很多朋友可能在讨论中,还是会把相关的方向牵扯进来——这也是没有办法的,一个是因为教育本身就是很复杂的系统,另一个是因为很多时候实践过程中它们也是在一起的。但我仍然强调,讨论的时候需要明确其定义和关系。这里包括:

(1)自适应学习系统和教育测量与评价的关系:教育测量与评价是一个非常复杂的、独立的方向,它是自适应学习系统的叔伯或者兄弟方向。但自适应学习系统和教育测量与评价是有关系的,最大的关系在于优化目标的确定和学生的刻画要依赖于后者。但我们这里要谨慎的做两个区分,第一个是要明确所讨论的问题和技术方案是哪一个方向的,要让上帝的归上帝,凯撒的归凯撒;第二个是要明确的,虽然现在多数自适应学习系统都需要或多或少基于教育测量与评价来做,但我们不确认未来会不会有系统主要部分不依赖于教育测量与评价的自适应学习系统。

(2)自适应学习系统和教育大数据分析的关系:教育大数据分析也是一个独立在发展的方向,自适应学习系统需要一定的数据基础,但教育大数据分析不仅仅为自适应学习系统提供数据基础,它还有更丰富的应用内涵和场景。所以,我们在讨论过程中,也需要把教育大数据分析的功用和自适应学习系统区隔开来。

这些关系,是尤其要先明确的。这样讨论起来不至于拉拉扯扯。

在这个基础上,我给出我的结论链条:

(1)对于全世界的现状而言:

  1. 自适应学习系统,在练习环节,不是K-12教育的救世主;

  2. 自适应学习系统,在学习环节,不是K-12教育的救世主;

  3. 自适应学习系统,在教学环节,不是K-12教育的救世主。

(2)对于自适应学习系统未来发展而言:我的态度是“路漫漫其修远兮,吾将上下而求索”。

对于现状,自适应学习系统的几个大坑

为什么我的立论中,对于现状而言,会认为自适应学习系统不是K-12教育的救世主,就是因为自适应学习系统的一些根本性的基础工作,还有很多大坑没有填。我们逐一展开。

  • 优化目标的坑

K-12教育的一切教育行为、学习模式和教育技术平台,都是为了K-12教育的教育目标的达成来服务的。同时,任何一个有机器智能(机器学习、数据挖掘、人工智能、大数据等等)工作经验的人,都会认可一点,优化目标是问题和工作的起点。对于我们讨论的自适应学习系统而言,优化目标就是机器可以计算的K-12教育目标。 

如果宽泛的讨论K-12教育目标,在中国的这个环境下,我们可以认为有应试与发展素养两个方面——虽然这里是有很大争议的,很多朋友会说应试中为什么不包含发展素养?发展素养的部分没有纸笔应试的评价过程吗?——就专业来讲这当然是有问题的,但好处是更适合大众的思路,而且,我们可以粗略把应试定义为以高考纸笔考试为代表的知识学业成就和能力评价,而把发展素养装入更多的对人的要求、核心素养的要求、情感价值观的要求,等等。先做一个大体的切分。

这样一个切分之后,对于K-12教育目标中,越来越显出重要地位的发展素养的部分,如果要用“可计算”来要求,那真的就是呵呵了。对于目前而言,我没有见到任何完整的体系和数据来说这一部分的教育目标,在计算机上是可以实现和计算的。

那么对于应试的目标部分呢?这一部分,也包括两个方面,对于知识掌握的目标部分,就全世界而言我们可以说是基本可以计算机计算的——这也是教育测量与评价发展的结果,但对于能力的部分,这里有一定的争议。

但总而言之,从宽泛的角度来讲,自适应学习系统如果想成为K-12教育的救世主,在教育目标计算机可计算的角度而言,目前只能实现其中非常小的一部分。这里最多只能算是一个参与者,如果说小打小闹太伤人的话——远远达不到救世主的层面。

就中国而言,现状是应试的部分远大于发展素养的部分,看起来是对自适应学习系统有利很多。但恰恰不然,中国的教育和教育技术是更加落后的,在应试目标上只有历年真题、大量模拟题和教辅题目,以及互联网搬运工来来往往的题目——对于教育目标描述,国家课标仅仅是一个描述,根本不能用于计算机——如果你认为攒出来的题库就是应试目标的刻画,那我也只能说你既不了解中国题库产品的现状,也不了解中国应试的现状。

对应试目标的刻画,其实非常依赖于教育测量与评价的发展。在美国有ETS,在中国什么也没有。而且因为中国应试的激烈程度不同,中国的应试测评环境和要求也不同于美国。在中国对应试目标的计算机化,这个工作其实在成熟度、可行性上,比之于美国更不容易做。

基于这个立论,任何一个主张自适应学习系统就是救世主的朋友而言,都需要回答你的系统的优化目标是什么。如果是“应试提分”,那在我们这个小节中,需要回答“提的是什么分”,你确定你所指出的“分”是“稳定的、有意义的”?如果是“应试效率”,那你需要明白,真正的效率是在效果单位上的资源成本,如果你没有对K-12应试效果做出界定,应试效率也通常是YY的。而且,务必需要注意,是救世主的地位。

  • 数据源头的坑

做自适应学习系统,如果没有足够的数据支撑,那也是天方夜谭。

在获取教育数据上,我们现在也处于一个大坑中,尚且没有一个能支撑“救世主”地位的方案。具体来说,形成这个大坑的原因,至少有如下三条:

首先,我们收集什么样的有效数据,需要我们清楚的知道我们收集数据的目标是什么,这个问题的实质,就回到上一小节,优化目标的大坑中。

其次,我们能否收集到数据,取决于产生数据的系统,是否可以和我们进行完全的、一致的和足够的配合与互动。做K-12的自适应学习系统,就是需要收集K-12教育的数据,这包括但不限于:

(1)练:学生的练习环节的所有数据,包括课堂练习、课后作业、各种复习练习,以及应试题库等等

(2)学:学生的学习环节的所有数据,在上面练习数据之外,还包括上课听讲、参与讨论、自学教材、基于其它教育平台自学、甚至在某些碎片时间对学习内容的思考等等

(3)教:教师的课堂讲课、教学过程的设计、对学生的反馈和干预、对学生的管理、甚至包括拉入家长等更多角色进入教学系统的行为等等

我们说到这里,其实可以就上面三大方向每一个重要场景和环节,逐一的分析,我们现在采集数据的现状,及其困难。但我们不再赘述,毫无疑问的是,中国的K-12教育系统,生产高质量的教育大数据的意愿和能力,双方完全的、一致的和足够的合作,还是一个奢望。

再次,做高质量和丰富的数据采集和体系建设,需要足够成熟的技术方案。在上面提到的环节和场景中,不仅对于系统双方有很高的要求,对数据采集的技术和数据建设的技术,要求也是非常高的。建设一个高质量的题库,已经是非常困难了,采集高质量的教师讲课过程数据,采集高质量的教师反馈干预、学生讨论互动的数据,那是更加困难的——没有这些数据的支持,自适应学习系统在练、学、教各个方面而言,都是空中楼阁。

所以,每一个说自适应学习系统就是K-12教育的救世主的朋友,都需要一一解读这些数据层面的大坑,是如何填的。这不是一件容易的事。

  • 人才团队的坑

做自适应学习系统,一个非常重要的因素就是人才团队。我之前在重煲俊晨的鸡汤的时候,曾经点出这个问题。对于未来我不知道,对于现状而言,这绝对是一个巨大的坑。

自适应学习系统本身的实现,就需要非常好的、具有机器智能工程实施以及教育技术实施两种背景的工程师,同时也需要自适应学习系统在应用层面的产品,他既需要懂计算机应用的产品的设计,也需要深刻懂得教育的场景和过程。而这两类人,目前都是稀缺的。

工业界人才的稀缺,有两个根本原因。第一个是资本利润的状况,一个行业如果资本利润状况足够好,那么是非常有利于人才聚集的——互联网方向就是一个非常好的例子,但目前看起来,教育还不是。第二个是学术界的状况,在高等教育和学术界,需要有足够的科研深度积累,形成可以工程实施的基础,以及一批高质量的高等教育毕业生,有这样的学习研究经历。这两个因素,都是工业界所需要人才快速聚集的基本条件,目前自适应学习系统和在线教育而言,还处于比较早期的开拓阶段。

在这样一个早期的阶段,任何一个朋友说起自适应学习系统就是救世主,那么我们当然会问,做自适应学习系统的是哪些人?他们经历了怎样一个发展历程?哪些在解决工程的问题,哪些在解决学术研究的问题,钱都是从哪里来的?

对于现状,我们聊聊应用场景

在探讨几个一般性的大坑之后,我相信就现状而言,自适应学习系统成为救世主的基础是不存在的。但我们仍然愿意就K-12教育的一些具体的应用场景来深入聊一聊。

我们换一个问题,如果成不了K-12教育的救世主,那么是否在某个应用场景成为一个重大突破点?

不为争议而争议,这是有价值的讨论。所以这一章节,我们结合具体的应用场景,一方面论证现在自适应学习系统不是K-12教育的救世主,另一方面,也为做自适应学习系统提供一些有益的探讨。

关于基于题库练习少做题的场景

中国应试环境下,学生在练习时,是需要大量的做题的。所以从这个场景切入的人还是比较多的。

我就这个场景,结合之前的经验,来说一些落地的东西。目标通俗的说是少做题,不强调提分(强调提分最明显的坑之前已经提过)。

做这个自适应练习系统,一般而言是自学的需求,也就是学生刷题的需求。再细分,产品可以做出更细致的拆解——比如:

(1)基础单一知识起步训练的需求:比如英语是记单词,数学是口算等

(2)和教学进度大体匹配的同步训练:虽然产品不一定明确教学进度,但一般都是有教材教学体系,在这个体系下进行同步练习,大体对应课后、单元复习的练习要求

(3)面向应试的综合式训练:这一类产品直面某个应试,如中考或高考,学生一般是毕业班的学生,它的主要目的不是起步或同步知识训练,而是面向应试要求的综合训练

这三类具体的产品场景中,对于内容基础和自适应学习系统的研发,都是有区别的。起步训练的部分比较简单,一般系统实现不复杂,加上一些记忆遗忘的处理策略就算不错。这一类自适应训练系统,如果学生不存在动机问题和学习持续性问题,那么对训练还是有帮助的。因为它的确可以让你的记忆更有效率,让你利用碎片时间更有效率,让你过程可视化更有效率。

但主战场,一般在第二类和第三类上。

第二类的题目有了一定的复杂度,需要跨越两个技术障碍。第一个是题库质量,包括题目本身的质量和有效性,也包括对一个潜在教学体系的进度适配性(我没有见过公开表明不跟任何公立教材进度搭边的刷题题库),这件事是有成本和门槛的。第二个是要比较准确的判断题目的难度,以及学生做对任何一个新题目的概率;这个问题有不同解法,有朋友会通过选用户来解决,比如,选择学困学弱,那么大部分题目就应该是难度低的、基础性的题目;有些朋友的做法是不做复杂的模型,就用题型信息、人工标注的难度等级信息、以及题目的错误率,来近似评价题目的难度和学生做对题目的可能性。总而言之,这两个技术障碍都有了基本解法之后,我们可以不让学生做所有的题目,而只用选择一定难度范围的题目给他。这就是教育界的万金油,“跳一跳才能够的着的目标才是好目标”,在练习上的说法的落地,“给他有点难但又不太难的题目”,自然直观上达到了少做题的目标。

我们自己曾经用IRT模型来解决这个问题,通过一定量的解题数据,来自动训练获得学生的参数(能力值),以及题目的参数(区分度值、难度值、猜测度值等),然后使用学生的能力参数和题目的参数,就可以预测一个学生做对一道未做过的题目的概率Px。用Px可以更准确完成人和题的能力、难度的合适的匹配,比如,Px<0.6属于难题,0.6<=Px<0.75是一般难题,0.75<=Px<0.85是可以够的着的题目,Px>=0.85是容易题目(或者加>=0.9是已掌握题目),这样系统可以准确的完成匹配目标。

如果我们说,自适应学习系统预测做对概率是Px,而实际推荐结果,学生做对的概率最大似然统计是Py,那么我们可以用下面的指标来评价自适应学习系统的准确情况:

|Py – Px|

这是一个非常简单且明确的优化目标——虽然本质上是一个技术目标。但模型可以在这个基础上进行不断的优化,我们之前在[0.6, 0.9]区间上可以做到稳定效果如下:

|Py – Px| < 0.03

在预测学生答题概率较低时,需要承担学生的猜题风险,在预测学生答题概率较高时,需要承担学生答错的各种可能性因素,所以每个区间准确率并不是一致的。但总的来说,针对这样的目标,系统商用是没有问题的。

就技术优化而言,还存在一些问题。比如,学生猜题的因素,我们并没有处理的特别好,这个是可以做模型优化的——学术界也有一些研究。而对于学生做题数据的清洗,比如学生不认真做题的数据的清除,我们则是没有办法处理的,需要在模型和产品上综合考虑。而诸如学生的动机因素,如学生刷题不是为了学习而是为了获取积分激励,这对整个数据生产和系统是有一定影响的,但也需要综合考虑。这些都是没有深入实践的点。

但就这个问题而言,第二类问题的解决,仍然不能说达到了目标——少做题。少做题归根结底是在一定的效果程度上,可以少做题而达到同等效果。如果我们不能对应试效果做准确度量,少做题都是自说自话——在我们系统上可能阶段性的少刷了一些题目,然而能推导出什么、保证什么呢?我们对应试效果是无知的。

另外,就系统的优化目标而言,预测概率绝对偏差是一个很好的技术优化目标,但没有任何一个老板会满意这个目标。这不是一个具有直接经济效益的优化目标,而提分是。提分?对不起,我们不具有提分的基础。

假设自适应训练团队向老板提出了提分所需要的资源,至少我们团队应该有能力做知识掌握与否的平行测试,我们能够进行教育测评的前测、后测实验,这里面还有一些问题需要继续探讨。首先就是事情本身的专业性,包括测评的信度、效度,也包括实验的设计和控制——而实验控制往往是不可能的,或者极其困难的(这里详细讨论需要单独写若干篇长文)。另外还有更大一波的争议,你的这个提分证明,怎么能够确保学生在中考和高考中有同等表现?或者在地区学校的期末统考中有同等表现?可能还不如竞争对手猜题训练来的有效。

结果往往是,老板招聘的时候会说你是救世主,但工作之后、尤其review商业贡献时,自适应学习团队成了“就是猪”了。

第三类题目,在中国应试环境下是非常复杂的。我一个朋友桶叔做题目训练产品的,到哪里都带着他的红宝书——一个练习册,只要你说一种技术思路,他立马拿出红宝书指出一个题目,“你来分析看看”,然后看中国应试的这些综合大题,那真的是非常的沮丧。

IRT模型对答案是0/1的数据有一定效果,且它也有自己一系列的假设。但对于这种综合大题,拿的是过程分,解题过程中有n多因素,同时对于大多数学生而言都是有困难的(做对的概率都比较低),这种情况下什么模型更有效还是在摸索中的(包括IRT也在发展中,俊晨笑言我们比之于美国落后几十年)。

对于Knowledge Graph知识图谱(我重煲鸡汤文中有探讨这个定义的说明),在模型应用中俊晨有讨论其困难,事实上数据的质量和浓度是不足于做有效推理的,而且,做知识图谱的学科基础也不够,包括我们自己之前在上面的尝试来看都是非常浅的,以及看国际教育技术公司的知识图谱的建设,都是比较早期的尝试阶段(我把这个话题放到“一个小尾巴”的语义网话题中)。

有一些老师会从认知科学的角度,基于心理认知科学的最新进展,去分析知识结构和体系,并探讨对自适应学习系统的应用。我的感受是没有见到系统效果之前,这些都是疑似。也有一些老师会选择更小的点切入,从更加微小和具体的点进行探索,我就不能细说了。

但总而言之,对于第三类场景,谈自适应训练系统是救世主,更是一种奢望。

所以,关于题库练习少做题的场景,我认为自适应学习系统的“救世主”地位,还是空中楼阁。虽然我也不希望自适应学习系统是一个“就是猪”的地位,但实际上还是常有发生的。

如果有朋友就这个场景有不同意见,请拿出系统案例和数据,我们来进行讨论。

关于作业场景的自适应学习系统

自适应学习系统可以用于作业行为——它和学生自学是不同的。最大的不同,作业的布置权在教师,而教师的作业设计,原则上都是有教学目标的。

这个地方我不能谈太细。但我可以简单的说一说,一些一般性的东西。

一份作业在老师那里承担什么教育目标,这件事是比较难于搞定、搞的足够好的。因为老师的教学过程和公立的教育体系,是一个复杂的事情。但工业界的作业类产品,一般都会简单切入,比如:

首先,可以做工具,针对老师的痛点需求。英语老师在学生听说作业上,是有痛点的,所以可以做英语的听说作业,布置、收集和测评,工具都有便利性。数学在口算心算熟练度上,是有痛点的,数学老师可以布置这样的作业大量利用学生的碎片时间。等等。

其次,可以提供一部分面向教材的内容,供老师筛选。这样,就面向各个教材版本,搭建教材所对应的题目内容,且比教辅优秀的地方是题目的选择体验和数据的反馈,等等,一部分老师可能可以尝试,但往往还是需要激励的。

再次,可以拉着更多角色,包括教研员等,做综合立体的服务。有教研员组卷,有项目资源,有教师培训的打通,等等,行业里根据企业优势不同而八仙过海、各有神通。

但这种切入,和效果的出现,还是有很大差别的。举两个例子来说就明白了。首先,无论是上海教育主管部门,还是浙江教育主管部门,都对作业的优化做了大量的工作,同样,西方有更多实证的研究——中国一向实证薄弱,我们看不到实验结果,但西方很多实验结论是在说,小学生的作业对于学业成就没有证据表明是有效的,但对培养学习习惯是有效的。我的问题是,对于作业本身都没有实证的话,自适应学习系统用于作业,是更加没有实证的。其次,一家非常著名的国际教育技术公司,做自适应学习系统的,在中国有尝试做自适应作业的试验——但试验的结果是,其自适应作业推荐的效果比较差(我就不点名了)。

如果把自适应学习系统,即使用在作业场景,把它当作K-12教育的救世主——放到教师面前,我相信多数教师的反馈是可以预期的。事实上,我的论点是,这种反馈不全是盲目的,事实上我们作业场景上有限的自适应学习系统的尝试,问题在教师那里是非常明确的,包括把握不住教师的教学目标,内容质量不够好,内容不能有效匹配教师当堂作业训练需求,以及,主流训练过程无法在线化,甚至还包括有关领导和家长的反对,等等,不再赘述。

关于翻转课堂中的自适应学习系统

在以前,探讨翻转课堂实践时,我曾经专门指出,在批判翻转课堂实践时不要指着东施骂西施,于事无益。但国内反馈的一些零散声音来看,翻转课堂在国内的实践不能算成功。

实际上,在教学的环节使用自适应学习系统,我认为和翻转课堂系统结合是有一种可能性的。但苦于大家都提到自适应学习系统可以用于教学,但又没有展开自己的想法,所以我只能这么抛砖,而且只有观点(故事),没有论述。

就如一开始所表明的,如果抛除了教育测量与评价的功用,抛除了教育大数据的功用,我相信有朋友所谓的自适应学习系统用于教学,是比较有限的。而翻转课堂本身,在中国的实践仍不成功,那么再加上不太成功的自适应学习系统,两个不成功加一起未必就成功,反而可能问题更多。所以这个方向比较难谈。但好在与我的结论没有冲突,自适应学习系统,现在用于教学,更不是救世主。

就美国而言,可汗学院的影响大于效果,事实上可汗先生在美国公立学校中推广他的翻转课堂平台,也不是非常的顺利。所以可汗先生在探索另外一条道路,办了khan lab school,自己办学来证明什么样的系统是有效的。可汗先生都不敢说,自适应学习系统是K-12教育的救世主。

 我只说自适应学习系统和教学是有结合可能、且未来可能拿到更好的教学效果的;但对于现状没有看到可行案例,有朋友如果能够补充新论证论据,那是非常欢迎的。当然,我听到过的一些教师或相关主管朋友的经验是,自适应学习系统对整个教学计划和教学管理的冲击非常大,实践是非常有问题的——我没有实际跟过项目,这里不再展开。

对于自适应学习系统的未来的看法

如果有朋友下场,是从未来的角度出发,说“自适应学习系统就是K-12教育的救世主”,的确,这个结论非常难于反驳。因为,关于未来,我们怎么验证呢?我们一个看立论的逻辑链条,一个看个人信念;总不能看谁活得长——也不知道未来到底指的是多未来。

就我而言,我对自适应学习系统的未来,是抱有“路漫漫其修远兮,吾将上下而求索”的态度的。是不是救世主我们另说,但绝对不是“就是猪”。

除了这个信念之外,我个人不太相信一种系统或学习模式,会成为K-12教育救世主。包括自适应学习系统。

如果你有疑问的话,我们玩一个排序游戏就知道了。

关于K-12教育,有非常多的因素有重大影响和可能,我请大家做一个排序,谁更重要,谁次要:

自适应学习系统

个性化教育

课程改革

教师专业化

教师职业发展与激励

高考改革

教材与教学基础资源信息化

公立学校体系建设

私立学校机制开放和体系建设

教育公平化

……

哪位朋友来排一下顺序,并论证一下你的排序?你觉得哪条因素会成为K-12教育的救世主?

什么?自适应学习系统只是众神之一,你是多神论信仰?好吧,这个讨论就开拓了新局面,两个多神论信仰的人先不忙吵架,而且我暂时没有继续讨论的力气了。

自适应学习系统虽然不是K-12教育的救世主,但它代表的教育技术的变革力量是意义重大的。值得每一个教育从业者仔细考虑,并以自己的方式进行贡献。

这是我参与这个讨论的目的所在。

本文转载自爱行知(微信公众号:k12edu-tech),作者李子。

1、本文是 芥末堆网转载文章,原文:爱行知
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源:爱行知
芥末堆商务合作:王老师 18710003484
  • 讲逻辑的方式探讨自适应学习系统不是K-12教育的救世主分享二维码