信息经济时代的教育方法论

信息经济时代的教育应该注重自主学习能力,注重单一方向的学习深度。

为实现这种教育目标,教学方法需要从现在的高度标准化的教学向技术辅助下的个性化教学转变。标准化教学内容可以由网络完成,而非标准化的内容则由老师在数据支持下完成言传身教。

实现这种教育方法的技术条件已经接近成熟,更大的挑战是创造能够在经济上支持这种教学方式的教育机构。

I.为什么要我们要学代数?

【如果你忘了什么叫代数,比如x^2-y^2 = (x-y)(x+y)就是一个例子】

  • 回答一:不学代数就找不到好工作

绝大多数工作,其实跟代数没有什么(直接)关系。拿所谓的“需要对数字有感觉的”的热门行业举例。有多少投行人士天天在那儿做因式分解?有多少咨询专家天天在那儿解多元方程组?在他们99%的工作中,所应用的数学知识不会超过4位数以下的加减乘除。其他社科人文行业就更不用说了。无间道会是一本不那么精彩的电影,如果梁朝伟在天台拿枪指着刘德华的脑袋说,“对不起,这个局面比是一个 b^2-4ac<0的一元二次方程”。
许多好工作需要代数,但是更多的好工作不需要代数。为什么学生应该把大把时间砸在一个小概率事件上?

  • 回答二:其实生活中许多地方都用到代数

有看官会反驳说:代数在我们生活中处处都存在;你看不到它的直接应用,不代表它不在起作用。

我同意。但是出来混江湖不懂的事情太多了,多它一个不多。我不懂HTML语言是怎么机器编译的,这不妨碍我用wordpress传播我的谬论。看官大概也不懂什么HTML是个啥,这不妨碍你用浏览器看到我的谬论。我敢打赌说,普通人遇到HTML语言的概率要比他遇到代数的概率高得多,为什么HTML语言不在高中必修大纲里?

  • 回答三:代数帮助我们锻炼抽象思维

在数学上小有成就的看官可能会说,其实初高中数学的确没什么用,但是抽象思维很重要。因式分解的具象表示有无限多种,但是被一个有限的公式就表现出来了,用有限表示无限,这是多么多么NB的一件事情。(一般两个nerd说到这儿,顿有一谈倾心,相见恨晚之感。)

如果老师花了这许多口水,学生流了这许多汗水,真的能让学生掌握“化繁为简,融会贯通”的功夫,的确不是一桩糟糕的买卖。但是实际上有多少高中生走出校门时回首自己的代数学习生涯说“我不会为自己的碌碌无为而悔恨,因为我学到了抽象思维”?实在是太少了。


所以这个问题最诚实的答案是:绝大多数人都不用学代数。那么同理:

为什么要逼他们学牛顿力学定律?

为什么要逼他们学酸碱反应?

为什么要逼他们学有丝分裂?

为什么要逼他们学太阳高度角?

为什么要逼他们学唯物辩证法?

为什么要逼他们记秦朝灭亡的历史意义?

为什么要逼他们学虚拟语气?

为什么要逼他们背《陋室铭》?

II. 现代教学方法的历史路径依赖

要理解现代基础教育“什么都教,什么都不教精”的特色,就要理解其历史演化的路径。

从历史文献中看,古典教育都是高度个性化的学徒制。第一个特点是跨度大。亚历山大不仅要习武,而且还要学习逻辑和修辞。而周朝的贵族们则要习六艺(礼、乐、射、御、书、数),上得厅堂,下得战场。第二个特点是标准化程度低,怎么教完全取决于老师的风格和判断。比如说,禅宗有“世尊拈花,迦叶微笑”这样“教外别传、不立文字”的传统,柏拉图学派却讲求从演讲和辩论中学习。低标准化的好处就是可以依据学生的性格和处境进行高度个性化定制,这在《论语》中多有表现。这种学徒制的好处是“名师出高徒”,有利于培养少数精锐的高素质人才。所以到今天,博士教育依然走的是学徒制的路子。

但是到了大约唐朝,古典教育开始土崩瓦解。在东方,科举制塑造了私塾体制;而在西方,正规教育被经院哲学牢牢把持着。说白了,这两种教育都是一种职业教育,前者为了培养官僚,后者为了培养神父。因为教育内容的跨度变小了,教材变得高度标准化。虽然所奉的经典不同,但是就“死读书、读死书”这一点而言,两者区别不大。因为真理是唯一的,且真理都在书上。老师怎么教差别不大,言传身教就也就失去了意义。教育的主要目的不再是学习思维方式,而是习得知识。韩愈要鼓吹“传道授业解惑”的排序,恰恰说明那时的老师们并没有什么“传道”的精神。

基于职业的标准化教育在普鲁士终于开花结果。普鲁士普及“义务教育”的初衷是培养国民对于“国家”的臣服和忠诚。要实现国民教育,首先要降低教育的成本。降低成本最快的办法就是标准化,不仅是教材的标准化,而且是教育时间的标准化(不可能养一群老贡生)。一旦变成国民教育,就不能像把内容局限在经典文献,毕竟不是每个人都能去做牧师主教的;既然鬼知道他们以后会要干嘛,就只能面面俱到,什么都教一点,寄希望于他们到了工作岗位上再“干中学”了。在工业革命初期,这不是一个糟糕的主意。因为工厂工作大多数是“重复劳动”(routine job),并不需要太多知识和创造力。总而言之,“高标准化、大跨度、低成本”的普鲁士模式在工业革命时期的经济模式中是异常有效的创新。


但是信息时代的经济模式已经与工业革命大相径庭了。那些高度标准化的“重复劳动”工作岗位已经或者即将被机器和算法取代。这有两个后果:

(1)更多的工作并不发生在生产一线,而是难以标准化的设计、管理、营销。这些工作需要创新,决策和沟通。

(2)生产一线的工人也不再是卓别林式的“人力组装机”,而是操纵和维护精密复杂仪器的技术工程师,需要在这个技术领域有非常高的造诣。

(3)由于旧职业的消亡和新职业的兴起,正常的职业流转速度会大大提高,并且不会随着年龄的增加而降低。今天40岁的美国人,65%在从事在他们高中毕业时根本不存在的工作。举个简单的例子,今天编写app的大部分程序员,在他们高中毕业时地球上还没有app这个东西。

这对于教育提出了两个要求:

(1)非智力能力(non-cognitive skill)的培养需要“教外别传、不立文字”式的言传身教,其生产方程的人力资本的投入比例很高。换言之,师生比可能需要大幅下降至个位数。

(2)学校的教学深度和企业的使用深度之间的差距需要大幅缩小,这就需要高中课程的深度大幅提高。比尔·盖茨在12岁开始编程可能是传奇,但是10后的孩子如果12岁还没有开始接触编程可能就“输在了起跑线”上。这样等他们到了大学毕业时都能达到现在所谓“全栈工程师”(full stack engineer)的标准。

(3)终身学习的习惯和自驱动学习能力将会成为最重要的教学目标。由于基础教育完全无法预测未来的知识需求,最保险的办法就是教授孩子如何Google的技能。

总之,“高标准化、大跨度、低深度”的普鲁士式工厂教育不再符合信息经济时代的教育需要。信息经济时代的教学方法论会再度回归到古典教育的学徒制中去。

信息经济时代的混合教育法

学徒制的教学法是一种非常昂贵的人力资源生产方式。互联网和机器学习在过去半个世纪的进展也只是大幅降低了标准化教学的成本,而标准化教学在学习过程中的比重将越来越小。考虑到学生的投入(主要是时间投入)如果没有达到极限,也很接近这个值了。教育生产效率提高将主要来自教师效率的提高,具体来说

(1)对于可标准化的教学内容,利用网络降低实现成本;

(2)对于不可标准化的教学内容,利用数据提高教师效率。

 标准化教学和网络教育

首先, 什么是标准化的教学内容?100%的标准化是不存在的。首先许多内容不能标准化比如讲原子结构,到底讲多深?要不要提到量子力学?,其次,即使内容可以标准化,教学方法也无法标准化。比如,同样是讲一元二次方程的求根公式,讲法也有不同。因此标准化提供了一系列局部最优的解决方案。一元二次的求根公式可能一个版本不够,但是四个版本够不够?十个版本够不够?考虑到学生的数量,十个版本已经是高度标准化了。通过流媒体技术将标准化的教材向外传播是一个已经被解决的技术问题。

 

标准化的好处是极大提高教学的最低水平。不是让1万个水平层次不齐的老师各行其道,现在是由一个高水平老师以一个较优的方式统一教授。如果你考虑到农村教师可能只有初中学历,民工子弟学校教师只有高中学历,二三线城市高中老师只有(非211)本专科学历,由一个芝加哥大学博士来讲数学或者化学是一个质的飞跃。的确,芝加哥大学的博士可能教的比北京四中、人大附中的名师要差,但是中国99%的学生都不是北四中、人大附的名师教的。他们虽然得不到最优,但是至少他们有次优。

标准化的另一个好处将极大降低教学革新的扩散成本。如果一个老师革新了,他只能影响自己的学生和同僚;如果别人不知道他的创新,也就没法办法在他的基础上继续创新。这些悲剧的根源就是传统教学模式的扩散成本太高。但是,网络教育的传播成本极低,我们可以不断调整教学内容、改进教学方法。任何革新都将被永久保存下来并且立即向所有人传播。这就意味着网络教育会变得越来越好,而分享这一改善的成本却几乎为0。


非标准化教学和数据挖掘

更加重要且更加激动人心的创新将来自于将数据分析应用于非标准化教学领域。

肯·罗宾森爵士将学校形象地比喻为“医院”,将教学分为“诊断”和“治疗”两个环节。顺着这个比喻往下讲,数据分析(或者说学习科学)可以做的是两件事:第一是提供诊断信息,即告诉教师学生哪儿有问题,问题有多严重;第二是评价治疗方案的有效性,即告诉教师各种教学法的效果。

用教育学的专业术语讲,诊断包括形成性评价(formative assessment)和终结性评价(terminal assessment)。期末考是终结性评价,其目标是评估学习者的阶段性成就,几乎与教学设计无关;随堂练是形成性评价,其目标是实时追踪学生的掌握情况,从而为下一阶段教学做准备。利用做题记录和其他学习行为进行低成本、高保真的形成性评价是数据科学可以解决的问题。其实诊断的核心技术问题已经取得了突破性的进展(早在20年前就突破了),但是现在的问题是如何让一线医生(即老师)看懂这些诊断报告。核磁共振的确大大提高了体内造影的能力,但是要是医生看不懂也是白搭。

数据对教育的第二个重要影响就是教育效果评估。教学效果的经验评估一直是教育研究的软肋。美国教育界在本世纪初时受到发展经济学的鼓励和启发,越来越重视教育创新的高质量实践验证。“啥有效结算司”(what works clearing house)就是在这个环境下产生的类似于美国食品药品管理局(FDA)的重要制度创新。随着智能设备和感应器的进一步普及,教育数据的搜集会越来越普及;因此进行“小而美”教育实验会越来越便宜,检验具体教学法的成本也会越来越低,速度也会越来越快。

因此,请假想下述的教育场景:

学生们在各自的智能终端上学习,他们的进度被实时汇报在教师的抬头显示器上(类似于Google Glass)。抬头显示器报警说小明卡在了“一元二次方程的一般解”这个知识点上,老师可以查看所有这个知识点的练习题或者互动app,各自都带着教学效果评估。老师可以为小明推送一个最适合练习,在第一时间消灭盲点;与此同时,他可以去帮助小红答疑,因为数据显示小红在两个额外教学包之后都不理解一元二次方程的图像。

这并不是科幻小说。实现这个场景的硬件和软件设备都已经到位了。现在需要的是一个愿意尝试这种场景的教育机构。

NOTE:撰写于2015年

目标体系和自适应算法:基于掌握学习理论的理解

1.学习分析算法和目标体系

学习分析算法(learning analytics)就干一件事,那就是算一个事件发生的概率。核心问题在于,什么事件有计算其概率的价值?

对于这个问题的任何答案都是一个目标体系。如果我们认为做对某个技能(e.g.听说读写)的题是有价值的事件,那么这就是ETS式的能力目标体系。如果我们认为做对某个知识点的题是有价值的事件,那么这就是Duolingo式的知识点目标体系( 中国考纲体系也是如此)。

反过来说,如果没有一个目标体系,学习分析就如同盲人摸象,只见树木而不见森林,导致分析价值大大降低。
因此,目标体系和学习分析算法是一个硬币的两面。

2.自适应学习和目标体系

自适应学习的核心问题是“适应什么”(adapt to what)?一般来说它有两个对象:学习的速度和学习的难度。

学习速度对于目标体系的依赖是显而意见的。速度=”位移”/时间,而衡量”位移”需要目标体系的标尺。看到什么样的证据可以说学生掌握了某项技能/知识点,完全取决于目标体系的规定。就像在高速公路上测速,没有标尺你还搞个毛。

学习难度对于目标体系的依赖就不那么明显了。对于某个学生而言,每一道具体题目的难度是不依赖于目标体系的。但是这道题是否需要做就依赖于目标体系。因此任何基于难度的教学方案都不可能脱离目标体系。举个极端例子,我给家长20万题,并且告诉家长你家孩子对每道题上的解答概率,家长有办法制定一个合理计划么?不能,因为他不知道自己家的孩子到底要学啥。

如果考察真正的自适应学习系统(Khan Academy,Coursera,Aleks,Knewton),不一定每一个系统都有算法支持,但是他们一定都有一个目标体系。

因此,目标体系和自适应学习也是一个硬币的两面。

3.目标体系和教学设计

基于目标体系的教学设计可以被用于日常教学的提高,因为目标体系侧重于高频的形成性测试。在此基础上可以想象许多教学场景:

(1)早期预警
当学生出现严重晚于目标体系预期的进度,可以加入早期预警体系,及时提醒老师和家长进行干预。而不用等到期末考拿了鸭蛋再回家打屁股。

(2)攻坚战
当某个班级出现系统性的进度延缓时,可以进入攻坚战模式。我们可以向老师推荐适宜的教学案例,练习题或者其他教学资源。
如果某个单元系统性地进入攻坚战模式,在数据不足的班级或者未来的教学中可以向老师提供proactive预警和推荐。

(3)自驱动学习
对于学生而言,一旦有了目标体系,学生的学习进度可以脱离全班进度。学生可以自主学习,同时满足老师或者学校的教学要求。在没有目标体系的情况下,这是不可能实现的。

继续阅读“目标体系和自适应算法:基于掌握学习理论的理解”

自适应学习的两种设计方案:知识点间和知识点内

这篇文章将介绍两种自适应学习方案:“知识点间”(between knowledge points)自适应和“知识点内”(within knowledge points)自适应。知识点间自适应适合推荐引擎可以控制课程进度的学习场景。知识点内自适应适合推荐引擎无法控制课程进度但是有丰富题库的学习场景。

1.知识点自适应

知识点间自适应方案主要对于知识点的学习顺序进行优化。大部分“基于知识图谱”的自适应学习都属于这个大类下。

这种自适应方案的核心问题是:

假设有一个知识点集合,是否存在一个学习路径,使得学生在掌握前置知识点的前提下,必然能够沿着这个学习路径掌握所有的知识点?

比如说,Khan Academy构建了一张数学知识图谱,为每一个知识点都刻画了一个学习路径。它的暗含假设是,如果一个学生掌握了这个路径上的全部前置知识点,他必然可以通过练习掌握这个知识点。因此,只要按图索骥,就可以避免Khan所担心的知识网络“奶酪式”成长(aka都是洞)的问题。

因为知识图谱上的学习路径是唯一的,Khan Academy的自适应仅局限于对于学习速度的自适应。如果学生A花了一周还没有学会几何法求解空间二面角,他应该花更长的时间来巩固这个知识点直到掌握。如果学生B花了一天就学会了,他应该继续去学别的内容。这相对于统一步调的课堂教学而言,的确是一个实质性的改进。但是,Khan Academy式的知识图谱不能针对掌握水平分布进行自适应。如果学生A并不擅长几何思考,但是熟练地掌握了空间直角坐标系,为什么他不能通过空间直角坐标系来解决这个问题呢?

上述例子展示了绘制知识图谱所面临的巨大挑战。知识图谱是否只有一种画法?同一个知识点是否只有一条路径?ALEKS理论上为这两个问题提供了解答。即使知识图谱不只有一个,通往同一个知识点的路径不只有一条,可以学会全部知识点的可行路径依然存在。但是可行路径的数量级可能在千万级。

仅仅有知识图谱并不足够,系统还需要对于学生在每个知识点上的掌握程度进行诊断。掌握程度(mastery)之所以困难,是因为它是一个不可见的抽象构架。学界和业界对于该如何定义“掌握”存在比较大的分歧。例如,老版的Khan Academy用了最简单的“连对10个就算掌握”的规则。Duolingo也使用预测正确率作为用户掌握某个词汇或者语法的依据。从智能教学系统科班出身的自适应系统,例如卡耐基学习出品的Cognitive Tutor或者Knewton,都使用结构模型来定义掌握程度和做题结果的关联,从而部分抵消题目特性对于掌握程度推断的影响。例如,75分到底是掌握水平高,还是掌握水平低呢?如果平均分是60分(题目偏难),75分可能说明学生的水平相当不错;如果平均分是90分(题目偏易),75分可能说明学生的水平相当糟糕。

传统的知识点间自适应系统只对于学生做过题的知识点进行掌握程度推断。更复杂的一点自适应系统,(例如Knewton),会使用知识点间的关联关系来推断学生未做过题的知识点的掌握程度。这种关联推断只能算是锦上添花。尽管它降低了学生学习整个图谱所需要完成的最低做题量,但是它并没有提供探索可行学习路径的更好办法。

“知识点间自适应”是一个在直觉上合理并且在技术上成熟的设计方案。今天我们在中国看到的自适应学习系统,大部分属于这个类别。然而,“知识点间自适应”系统在美国的实际使用中效果差强人意。Eric Taylor 对智能学习系统的实证效果进行了综述,发现大部分混合教学并没有取得比课堂教学更好的教学效果。笔者认为原因有三:

第一,教材本身内含了一个设计良好的知识图谱和学习路径;由第三方教学专家构建的图谱和路径,未必有久经考验的教材版本效果更好。

第二,“知识点间自适应”要求老师允许学生以不同的速度学习,从而出现自然的教学分层现象。不论从政治环境上,还是从老师的教学负担上,教学分层都只能是一个“看上去很美”的教学设想。由于大部分知识点间自适应系统并没有ALEKS那样的基于掌握水平的自适应,而只有基于速度的自适应,不允许学习速度分化,事实上扼杀了自适应系统的优势。

第三,知识点间自适应和老师的替代性超过互补性,因此老师使用自适应系统后偷懒也可能是效果不章的原因之一。

2.知识点自适应

知识点内自适应方案在给定知识点内的不同题目之间进行筛选和排序。笔者认为这与国内大部分题库产品比较类似。笔者不能确定它们是否采用了这种自适应设计方案,因为它们对于自己的方法论讳莫如深。

“知识点内自适应”是一种颇具中国特色的产品形态。在美国,由于可公开获得的题库不论在数量上和质量上都难以尽如人意,因此大部分自适应学习系统在知识点内都采用计算机出题的模式,包括Khan Academy,Duolingo,Cognitive Tutor和ALEKS。这些题目本身高度雷同,因此并不存在太多的自适应空间。但是这种可控程度较高的练习题生成方式基本没有被中国的教育互联网公司采用。笔者认为一方面是成本的考量,另一方面也是用户体验的考量。从成本上说,在国内获取一个数目客观、质量尚可的题库较挨个知识点写生成器要便宜的多,也要快得多。从用户体验上说,家长和老师可能更希望练习题目应该类似于考试题目(特别是初高中学段)。此外,国内教学环境对于“超纲”比较敏感,知识点自适应在不能自由选择教学进度的前提下并没有太大用武之地。因此,利用一个数量庞大且品质参差不齐的题库进行知识点内练习(和教学)推荐,是一个非常具有中国特色的技术问题。

这类推荐系统需要回答的核心问题是:

假设有一个题库,是否存在一个练习路径,使得学生以最少的做题量达到某个预先指定的熟练程度?

这里有两点值得强调:

第一,这个问题与传统上的计算机辅助测试(Computerized Adaptive Testing),比如ETS的TOEFL和GRE,具有本质的区别。CAT的问题是,假设被试者能力不变,给定一个题库,是否存在一个测试路径,使得系统以最少的题量将学生能力估计到某个预先指定的熟练程度。因为CAT从根本假设上否定了通过练习进行学习(learning through practice)的可能性,因此使用IRT/CAT做推荐引擎的知识点自适应学习产品都有一点“挂羊头卖狗肉”的嫌疑(但是知识点自适应系统并不存在这个问题)。

第二,这个问题与传统上的协同推荐算法,比如淘宝,具有本质区别。协同推荐的问题是,假设每一个用户的偏好不变但是用户之间的偏好不同,是否存在一个办法可以通过用户的行为对于用户进行分类,从而为每一个类别的用户提供更适合其偏好的产品或服务。与CAT系统一样,协同推荐算法从根本上否定了学习的可能性,因此其推荐逻辑不具有教学逻辑。因为有和你类似做题记录的学生做错了这道题,所以你也应该试试这道题。这是一个非常糟糕的教学逻辑(如果有任何教学逻辑的话)。

知识点自适应可以说是一个还有待进一步研究的领域。笔者在此仅阐述一个理论框架。

一个描述动态学习的系统首先要定义什么叫“学习”(learning)。一个直观的办法是把学习和掌握程度(mastery)联系起来,将其定义为低掌握程度到高掌握程度的转换概率。每一个掌握程度由一套可观察的表现来定义。比如,给定一道题,90分以上是精通,60-90是掌握,60以下是未掌握。学习可以定义为从“未掌握”到“掌握”的概率(渐悟),也可以定义为从“未掌握”到“精通”的概率(顿悟)。这并不是唯一的定义方法,但可能是最简单但是不失普遍性的定义方法。

定义了学习,就可以定义“学习差异性”(learning heterogeneity)。差异性是构造自适应系统的根本原因,否则最优的教学方案会是千人一面而不是千人千面。学习差异性可以抽象成:

(1)水平差异性:目标是“精通”,题目对于“未掌握”和“掌握”的学习者的效果应该不同

(2)速度差异性:目标是精通,起点是“掌握”,题目对于一个快速学习者和慢速学习者的效果应该不同。

如果接受这套定义,接下来有两个重要的实际问题需要回答:

(1)上述定义系统中的参数是否可以被数据估计?

(2)如果估计了这些参数,如何构建一个推荐逻辑?

遗憾的是,笔者自己的研究表明,问题(1)的答案可能是否定的。只有在特定的题目顺序结构下,题目的参数和用户的类型才能被估计。但是如果我们忽视速度差异性,问题(1)的答案可能是肯定的。

问题(2)与其说是一个技术问题,不如说是一个教学问题。笔者认为,推荐逻辑应该由“测评-教学”的两步循环来构成。在测评环节,练习推荐侧重于题目的区分度和测量精度,从而区分用户的不同类型;在教学环节,根据学生类型,练习推荐侧重于题目的教学效果。在下一个测评环境,练习推荐再测试学生的水平和类型,如此循环往复,直到学生达到指定的熟练程度为止。

此外,练习推荐也应该注意对于用户留存的影响,如果学生不持续投入地练习,不论推荐逻辑再优秀,也无法展现其应有的效果。