2014.3教育传播与技术总第80期 教育信息化 “大数据”分析的教育应用 薛定稷 (宝山区教师进修学院,上海市201900) 摘要:本文简要叙述了知识传播、存储媒介变化对学习的影响,回顾大数据的概念与技术的演进。尝试归纳 大数据分析在教育中应用“终端成为学习行为的传设备,全样本的数量级以弥补数据质量、从因果规 律到相关规律、智能化闭环系统”的技术特点。通过案例比较详细地介绍了大数据分析在教育中应用 的一般过程、方法及作用。 关键词:大数据分析;数据导向;教育信息化 现在每天产生的“信息量”几乎是互联网出现 代,约旦的耶尔穆克大学对大学生用互联网搜索完 前数千年的总和。不管是什么话题,在维基、百度 成作业的调查、伦敦大学对出租车司机应用GPS导 或谷歌上一般总能找到一些相关的资料。网络已 航的研究等案例,也试图揭示现代信息技术条件下 成为一种记忆外包现象,而被“外包”的记忆是否还 “记忆外包”对学习行为、学习效果、学习心理甚至 能成为我们大脑的思考材料,将成为主要的问题。 脑生理结构的影响。 面对教育传播媒介的演进,人们总是会考量新 网络传播另一个特征是判断、筛选的后移。以 媒介的“媒介烙印”“记忆位置”对认知方式的作用, 前从一本书的旁注开始艰难地找到一个线装珍本 甚至对知识传播、文明传承、创新能力的影响。对 的过程,本来就是一个不断学习、不断追求、不断甄 于“科学事实”或“真正的知识”…,知道何处能获 别的过程。而“数字化一代在做的是捡而不是选, 取信息、占有材料、记忆复述、共感和思考、内化生 他们能做的就是抓起这个或那个,希望刚好挑中了 成等,如同“读书须识字”是一个递进的过程一样, 自己想要的”_4 J。其结果可能就是“人从思想的动 而不是两种对立的“教育理念”。首先,由于社会和 物退化为储存信息的动物,并因超负荷的信息堵塞 个体的教育资源是有限的,决定了每一个人在各方 而导致信息膨胀焦虑症和信息紊乱综合症。” 面知识的掌控程度都是个性化的,这也是社会人 现代教育信息技术是基于工业化时代科学与 “多元化”与“多样性”的原因之一。其次,历来基础 技术的辉煌成果而发展起的新技术,作为一些新技 教育的评价方式通常以“记忆复述”为主,“天下之 术的非发源地,我们首先用传统的“规模化” 习,不惟其教,而惟其所取。”_2 可见考核方式对“记 “标准化”“传播效率”等工业化时代核心价值去评 忆方式”的影响力之大。早在文字逐步走向平民 估和切入应用也在情理之中,但是由于认知与技术 (自由人)的古罗马时期,凯撒就谈及祭司们对文字 特征不匹配,更容易导致在引进和消费技术的初期 普及的担忧:“很多人往往因为有了文字的帮助,就 就过早地出现了较明显的“技术的反作用”_6 J。 把孜孜砣砣的钻研和记诵都放松了” 3j。信息化时 以“虚拟服务器、虚拟存储、虚拟桌面、虚拟链 l5 教育信息化 路”为特征的“云计算”技术为数据集中存储、集中 处理提供了技术的可能性;教育目标从“知识传递” 深化、拓展为人的“社会化进程”,也为大数据分析 总第80期教育传播与技术2014.3 集学习行为的传感设备。 (2)全样本而不是采样规划。采用实际发生的 真实的行为数据,并用数据的量级弥补社会活动数 据不精确的缺陷。 (3)从关注因果关系转变为探究相关关系,接 在教育中应用,提供了巨大的“社会需求”动力;现 代教育技术几十年积淀的“数据”如同一个个“宝 藏”呼唤我们去挖掘,已经成为现代教育技术的“关 受我们无法掌控人在社会化进程中全部因素的现 注成本”能否能提高效率、产生效益的关键所在。 “大数据”分析在教育中的应用实践为我们提供了 以信息化时代的思维方式观察、应用信息技术和工 具并推动教育现代化的案例。 一、“大数据”的概念和特点 和许多信息技术的发展史相似,“大数据”也经 历了“概念提出——因技术制约而蛰伏——关键技 术突破且量产化——迅速推广”的过程。利用网络 和计算机实现数据的集中存储和处理的设想其实 早在上个世纪末就已经出现,1980年未来学家阿尔 文・托夫勒将大数据称为“第三次浪潮的华彩乐 章”。1995年甲骨文公司的CEO拉里・埃里森推 出了一款名为“网络计算机”的设备,由于当时网络 带宽、服务器芯片处理能力和大数据分析需求的制 约,以营销上突出减少计算机终端软、硬件成本的 “瘦终端”为号召,这种技术使当时紧张的链路资源 更紧张,冗余的终端存储和CPU资源更冗余,因此 很快就消声匿迹了。大约在2009年左右,原来的几 个制约因素因通信技术、计算机技术和产业的飞速 发展而被抛到身后,“大数据”才成为信息技术的流 行话题之一。近年来麦肯锡的《大数据:下一个竞 争、创新和生产力的前沿领域》的研究报告,舍恩伯 格的《大数据时代》都曾风靡一时。 大数据的核心是通过数据挖掘发现有价值的 信息,大数据分析在教育中应用可以表述为“通过 数据挖掘,发现隐含的、有价值的信息,为教育决策 服务”,再具体一些可能就是“提炼许多人对同一刺 激的共同反应,并探寻这种反应的教育学原理”。 大数据分析的教育应用应具备以下特点: (1)终端不再是单一的信息呈现设备,而是“剌 激一反应”两个方向的双通道媒介,更重要的是采 16 状,并改变我们预期和研究方法。 (4)使系统形成闭环操作,系统架构和设计仅 仅是为了加速、收敛而制定的“初值”。大数据分析 的结果不仅给研究对象以建议,而且能对系统本身 进行诊断和自我完善。 奥巴马在《大数据研发倡议》中提出“通过 提高我们从大型复杂的数字数据集中提取知识和 观点的能力,承诺帮助加快在科学与工程中的步 伐,加强并改变教学研究。”l 他进一步将 “大数据”技术及应用提升到国家战略的高度。 二、“大数据”分析的一般过程 现代教育事业是一个大群体的社会活动,通常 教育应用中的“大数据”分析比针对“物体”的数理 统计更为繁杂。“大群体以与它单独成分的行为不 同的方式行为。单个神经元的反应几乎不能成为 人脑反应的前兆,有关水分子的知识也未能告诉你 多少关于湖泊变化的信息。”_8 何况我们对于人的 社会化进程在操作上也无法做到严格的因素控制, “解剖刀一下,连活的东西都立即变成死的了。”“东 方直觉的顿悟、整体的把握,更能接近真理。”l9 大数据分析比传统的数理统计更适合用定量 的方式分析定性的材料,为了找到隐含而有价值的 规律,大数据分析在教育中应用过程的各个阶段都 有一些独特的地方。 (一)明确目的 这里的“明确目的”与传统的教育科研的研究 目标有些不同,它不是试图证实(伪)研究者的假 设,而是为了更敏锐而较准确地感知并直观而清晰 地呈现教育、教学状态。 受经典的教育“科学化”的影响,以前我们的研 究总是试图建立基于个案的“因果关系”模型。最 2014.3教育传播与技术总第80期 理想的成果就是为某一问题找到一个(几个)规律, 教育信息化 如果我们仅用这套昂费的设备管理学生在合 适的时间出现在规定的区域,如同用“不需找零”作 为部署校园电子消费系统理由一样,是十分可惜 代人自变量,得到因变量,只要可以重复验证和推 广应用范围,哪怕“高次”“多元”也在所不惜。而大 数据分析的数据挖掘更在意揭示各种影响因素间 相互关联的规律,是一种基于大量实际数据的统 的。“高校学生伙食消费与经济困难学生甄别”研 究成果就让人眼睛一亮。 (三)整理数据 计、分析的结果而“呈现”的关系。 目前,这两种方法具有很好的互补性,常常相 互印证。在数据过于庞杂的情况下(元素数> 现在有了大量的数据,但大量的数据并不会自 然、自动地成为“大数据”。这些庞杂的数据需要经 100),为了提高效率,可以先用小样本分批筛选相 关性较高的元素,再用全样本正式处理,对于已经 确认具有相关(不相关)意义的元素(元素组)再通 过必要的数理统计的方法予以检验。因而在不同 的阶段具体的研究目标、方法也会有所变化,如提 炼优秀学生(教师)的特征、试题间的相关性与原 因、新概念的内涵与外延等都是比较合适的研究 目的。 (二)收集数据 收集数据有三个渠道,第一是网络、电脑上的 自动、自然留下的行为数据,当然还包括各种各样、 铺天盖地的“电子稿”,特别是社会评价的“描述性 评价”材料;第二是规划数据,就是有目的地开展访 谈、调查、调研的成果;第三是体态抓取,是一个基 于物联网概念的应用,是物体(人)的定位和工作状 态报送及远程控制。 较早案例是1990施乐公司制作的可乐贩售机, 能实时、在线告诉销售部门自动售货机的编号和货 物存量,为配送提供依据。后来比较重要的应用有 “电子手拷”设备编号、位置及与预设范围的比对; “移动放射性探伤仪”编号、位置和工作状态等。 在教育中较好的案例是“运动电子手表”,学生 在体育运动中能实时将心率、位置上报,并与该生 基础心率及其它信息比对,对运动量不足或运动过 于激烈的学生都给出提示,既保证了每个学生有合 适的运动量,又减少了运动伤害的可能。 在没有这种技术前,这类研究是极其费时费力 的,而且很难做得精准。如曾有一个研究项目叫 “学生体重与在校移动路径”,需要为每个观察对象 安排一个观察员,画出下课时学生的移动路径。 过“数据整理”的阶段,从理论上讲,我们在这一阶 段还不能知晓哪些数据是重要的,哪些是不重要 的,如果经验能掌控一切,就不需要“数据挖掘”了。 数据处理的第一步是符号化,也就是对语言、 文字、音视频的描述用聚类的方法进行进一步的归 纳和提炼。例:用中级职称代替包含小学高级、中 学一级、讲师、实验师、一级实习指导教师、政工师 等不同系列的职称。这当然符合人事部门的规定, 但是小学高级教师与高校讲师真的完全一样吗? 比如他们在中小学生的控班能力和本学科核心课 程的把握方面是否有区别?合理的提炼和归纳,有 助于突显事物变化的本质。“但,往往在于归类过 程中将思想者那些细致、边缘、微妙的——也许是 最具独创性、最宝贵的东西过滤掉了。” 。。 在数据整理中要特别注意数据的属性(逻辑、 层级、连续),在一个分析项目中尽量使用同一种类 型,同一维度的数据一定要应用同一类型,以方便 选择分析处理的算法和工具。符号化和数字化都 是信息不可逆的损失过程,在聚类、采样(分级)中 信息者可能受到“主观”因素的影响,真是应了“传 播即遮蔽”的观点。 数据整理还有一个重要的任务就是数据的结构 化,通常地做法是将数据纳入一个“关系型数据库”。 简单地讲就是将数据按行(记录)和列(元素)属性 分门别类地存放,这样就形成了“数字数据集”。 (四)分析数据 有了“数字化”“结构化”的数据后就可以进行 “分析数据”。对于文字、音频等描述性材料,现在 比较常用的是“内容分析”(质性分析)法,例如我们 用两个字表达对一堂课的评价,即为“好课”,但如 17 教育信息I-'E, 总第80期教育传播与技术2014.3 在这些工作基础上,我们可以进行年度“高频 词”比较,以呈现对教学追求的变化,特别是五年 前、十年前,甚至三十年前评课材料的比较;做跨地 区的比较,从不同地区对课堂教学价值追求的异 同,观察对教育理解的差异,甚至文化的差异;还可 以在论点与论据之间建立关联,即呈现“什么样课 堂教学行为”能引起人们这样的评价,以建立教育 理念与教学行为的联系,如:“表述呈现”与“重点难 点”有显著正相关,而与“教材重组”有显著负相关, l社会詹陛l I一致性分析I I高频词比较I ——— —一——— —一——— —一 这些相关性特征可以从课堂教学中找到相应的 原因。 I喜 喜 錾 高频词排序 评价量规I 、, Y在一个学生理财调查表的活动中,全样本的数 据经过双侧相关性分析得到(表1)结果。该调查一 共有16道题目,有55组具有很好的相关l生,其中有9 I备课建议I 图1 析的过程 组为负相关。呈现这种相关性,探究其正相关,负相 关和不相关的原因,对感知现状、改善教育产生作用。 表1 学生理财调查元素相关-眭 1题 2题 3题 4题 5题 6题 7题 8题 9题 l0题 ll题 12题 13题 14题 15题 16题 一 一 一 第1题(年级) 第2题(性别) 第3题(卫生间) 冰术 木水 木术 木术 木术 木术 水术 术术 水木 术术 木木 木术 术术 米术 半术 丰木 一 冰球 术术 术木 木木 木水 术水 水术 第4题(压岁钱数量) 术水 木术 木术 ~ 木术 术术 术一 半 术术 术丰 木术 木木 木术 术丰 木术 术丰 一 术冰 术术 木术 第5题(压岁钱用途) 木书 木术 冰水 一 木术 一 一 第6题(零花钱数量) 木术 一 木术 木术 木一 出 一 :}=半 水木 术木 术木 术 第7题(零花钱来源) 第8题(收支平衡) 第9题(外收消费意向) 木木 木球 术 一 术木 术术 术术 木米 术术 术木 木木 木丰 术术 术术 第1O题(银行业务) 第11题(个人账户) 第12题(业务证件) 第13题(了解家庭经济) 木术 术水 术冰 球半 冰木 术术 木木 术术 术木 术术 术米 木术 术木 术木 木术 球术 术半 术术 木水 一 术木 丰木 术木 木术 冰一 水 木术 一 第14题(资金价格意识) 木第15题(理财渠道) 水 半术 半术 木米 术木 水术 丰冰 术术 米水 术术 水术 术术 l第16题(理财养成意识) l8 木木 木米 木术 水木 水术 术木 2014.3教育传播与技术总第80期 (五)数据可视化 教育信息化 报告中将原始数据作为附录,对受众特别是其他研 究者是很有价值的。 “数据的可视化”就是决定找到的材料以什么 角度、什么结构、什么形式给大家看。大卫・麦克 数据可视化将复杂的数据以直观、对比强烈的 方式呈现出来,具有很大的视觉冲击力,是一种比 较有说服力的表达方式。 将某市2010年市级教学评比优秀课例的专家 坎德莱《资料视觉化的美丽》中讲得非常到位“整理 当今过多的信息,找出独特的模式与关联性,也许 就能改变我们对这个世界的看法”。演讲中举了某 国士兵数量的例子,从绝对数量来看是第一,但从 每10万人口的士兵数来看就排到124位了。所以, 即使统计者不能评论、不便表态,可视化呈现的视 角、形式也足以引导人们从特定角度观察数据,数 据的呈现方式是有态度的。 点评材料作全样本的高频词分析,并按理科和艺术 类进行学科分类(见图2)。这两种样本的学科差异 非常明显,艺术类样本“情感体验”比理科样本高出 48个百分点,“工具适切”高出31个百分点;理科样 本在“探究建构”方面高出艺术类样本22个百分 点,“思维品质”高出l5个百分点。说明在义务教 如要表示某一小学班主任教师的性别比例。 同一组数据,采用班主任中不同性别教师的比例和 不同性别教师任班主任比例两种呈现方式,会有明 显不同的作用。以可视化方式呈现的资料在研究 育阶段这两类学科的基础性核心价值具有非常鲜 明的特点。 1UU 90 80 70 嬲 鞠圈豳黼 650 黼 豳豳豳豳豳豳鳓 豳 鳓 圈 圈 豳豳 豳聪豳 《 圈 4() 30 .●一艺媸 乖术I 2O ’ 目龋 ㈤ 圈豳骚 蹋 圈豳 圈豳 豳 豳鞠 豳圈豳—隧 豳 1() 硝骚一 鲻疆 圈■黼■■豳龋 圈豳 鼹豳 躐嘲 豳●圈■隧 豳 豳 磷翻■■麟嘲■■嘲 明 图2某市教学评比中评课材料的高频词分类统计 (六)数据报告 一公众新闻媒体,选择突出的热点问题,图表简明能 说明问题,可以对数据的意义、现实原因作适当的 阐述;而学术研究中常将数据报告作为研究报告的 个比较完整的数据报告通常可以由背景(需 求、目标、数据源范围和内容)、处理方法(清洗、分 类、聚类依据和标准、凡例)、基础数据统计(所有元 素的描述)、专题分析(重点、热点问题深入详细的 支撑材料,形式以表为主,比较强调数据的来源、整 理的方法、处理的工具、校验和验证。 数据处理,元素问的相互作用,问题与建议)、附录 (相关标准、原始数据、比较中引用的数据源说明) 三、“大数据”分析的教育应用 用大量的、已经发生的教育教学行为与效果的 数据,求得实证的统计学意义上的元素与元素、元 素与外显行为的联系,为现在和将要发生教育教学 等几个部分构成。 根据数据报告受众的对象不同,报告的结构、 重点和形式会有一些变化。如咨询,通常 要求全面呈现,标题明了,先作简要定性的数据结 论,再辅以图表(以图为主),一般不对数据作评论; 行为提供参考。这就是教育中应用大数据分析的 目标和价值。 19 教育信.龟,化 (一)利用“互联网”的集体记忆 下面是某一研究结题报告文献综述部分所整 理的数据。近15年来(1998—2012)标题含有“德 总第8o期教育传播与技术2ol4.3 22篇到2004年的59篇,增幅恰巧也达到260%。 上面的例子可能比较直观,也许只要愿意花时 间就可能得到结果。但有些角度可能会复杂一些, 如图3中“德育资源平台”其变化出现在2000年、 2004年和2012年三处,且与“德育资源”“德育资源 库”变化并不同步,这是因为“德育资源平台”与技 术发展的几个关键阶段有关,而新技术应用到某一 育资源”“德育资源库”与“德育资源平台”等关键 词的重要文献篇目统计(如图3所示)。 具体的领域又会有一定的时延。 (二)关注元素间的相关性 如果数据质量较高,我们还可以通过元素间的 相关性来揭示各元素间可能存在的关系。在样本 规划与调查问卷质量不太理想、样本数量不够多的 情况下,只要严格采用0.O1(水平)置信区间的显著 图3标题检索结果 相关结果,其结论虽然不足以作为证实(伪)的证 据,但也可以作为改善样本规划、提示深人分析方 向的参考。或者说真正的研究“假设”这时已经自 然地出现了,而且数量还不少(一般为元素数平方 的l0%以上)。 很明显,包含“德育资源”“德育资源库”标题的 文献篇目从2004年的12、11篇跃升至2005年的32、 30,增幅是近年来最大的,均达260%以上。其主要 原因是2004年2月和8月先后发出 了8号文件《关于进一步加强和改进未成年人思想首 例:一个学生调查表的第8题,反映收支平衡 先道德建设的若干意见》、16号文件《关于进一步加 强和改进大学生思想政治教育的意见》。 的感受和自我评价,与性别(女性)、压岁钱用途、银 行业务、资金价格意识、学习理财的意识正相关,有 趣的是与每个月的零花钱负相关,也就是每个月的 零花钱越多,收支平衡感觉反而较差(见表2)。 接下来将“德育资源”作标题和关键词检索,并 加以比较。可以看到关键词检索中这个突变提前 到2003年至2004年间,提前了一年。从2003年的 表2收支平衡的显著相关因素 性别 第8题 .压岁钱用途 零花钱 .129 一.078 银行业务 .127 资金价格意识 .143 理财养成意识 .119 117~ (收支平衡) 根据相关性分析的提示,可以进一步研究元素 问的关系及其原因。(见表3、表4)。 表3不同性别学生“收支平衡”选项统计 男 女 表4不同每月零花钱学生“收支平衡”选项统计 l 不够用 10以0下元 3 100元— 3 500元— 5 以00上元 13.69% l0.52% l1.21% 3O.12% 够用,有结余 70.19% 67.17% 61.68% 56.63% 够用,但没结余 16.12% 22.32% 27.1O% 13.25% 够用,有节余 62.4% 72.9% 够用,但没节余 不够用 20.9% 16.6% 16.9% 10.2% 可以预见,用这种方法观察试卷题目间的关 系、不同学科学业成绩间的关系是工作量极大的, 20 2014.3教育传播与技术总第80期 也是很有趣的一件事。 (三)教育行为、教育研究的“数据导向” 数据报告不仅仅是基于理论的逻辑推导,而且 还依据数据分析的结果得出结论,显现问题并给予 建议。如果结果与现有的理论一致,就可以完成实 证的案例研究报告,如果其结果与现有的理论不一 致,或还没有找到相应的理论依据,就可以考虑进 行“因素控制”的研究、分析,并有“发现”新规律的 可能(见图4)。 系统完善 外显行为+] /\ j l 体会 结 数据清洗 l { 精确实验 诊断和建议 l 十 常模 十 检索理论依据 I I 因素相关性+一十 相关性分析+ ———Jl 图4“数据导向”的作用路径示意图 在检视元素间的相关性时,经常会看到“意外” 的关联,例如:某地某类学校,班级中学生占学生 数的比例与班主任教师中党比例、学校占教 师数比例、思想品德任课教师比例、心理健康课 教师为心理专业毕业生的比例显著正相关(在计算 中,元素名为变量名,为了符合变量命名规则,故用缩 写表示)。其中心理健康课教师是否为心理专业毕 业就是一个值得关注的新课题(见表5)。 表5学生比例的相关因素 班党团比 比 德比 心专业 Pearson 学比 相关性 .380 .322 .372 .3l9 教育信息16' 数据挖掘到这个阶段,如果要给有关部门、领 导提出“加强学生团组织建设”的建议,就水到渠 成,而且可以做到言而有据(数据)。 大卫・麦克坎德莱“数据是新土壤,是一种丰 饶且富有创造力的基质,而信息图像恰如这基质中 蓬勃盛开的鲜花。”最后,以一个初具“大数据”分析 和“数据导向”特点的教学设计作为结束语:请学生 悄悄写下自己心仪的学校和专业;查阅去年进人该 学校、专业学长的成长档案;与自己成长档案比较 (主要数据的图示);去年和今年考生数和招生计划 的比较。我想,通过这节课,只要你真的想做什么 的话,应该知道怎么做和做什么了。 参考文献 [1]罗素.罗素文集・东西方文明比较[M].北京:改革出版 社,1996. [2]盛康编.皇朝经世文续编(卷六六)[A].礼政.贡举. [3]凯撒,任炳湘.高卢战记[M].北京:商务印书馆,1979. [4]薛巍.万物闪光[J].三联生活周刊,2011,2. [5]王岳川.媒介哲学[M].开封市:河南大学出版社2004 [6]施维尔布施.技术从来不是没有代价的[J].三联生活周刊, 2011,25. [7]www.whitehouse.gov/blog/2012/03/29/big—data—big・deal [8]霍金.大设计[M].长沙:湖南科学技术出版社,2011. [9]季羡林.记忆述怀.武汉:湖北长江出版集团,2009. [10]刘晓东.陈寅恪:一个教育学问题.北京:中国社会科学出 版社,2009. 21