AI 教育-数学篇: 利用大模型进行自主错误分析和精细纠正
Debroon 2024-10-10 17:31:06 阅读 95
AI 教育-数学篇: 利用大模型进行自主错误分析和精细纠正
秒懂大纲提出背景解法拆解输入输出全流程全方位的创新分析翻译
论文:
https://arxiv.org/pdf/2409.09403
秒懂大纲
├── 1 AI驱动的虚拟教师系统(VATE)【主题】
│ ├── 背景与动机【问题描述】
│ │ ├── 传统错误纠正方法的局限性【现状】
│ │ │ ├── 耗时且劳动密集【具体问题】
│ │ │ ├── 泛化能力有限【具体问题】
│ │ │ └── 适用范围受限【具体问题】
│ │ └── 大语言模型(LLMs)在数学推理中的进展【技术进展】
│ ├── VATE系统设计【方法】
│ │ ├── 多模态数据收集【数据源】
│ │ │ └── 学生草稿图像【主要数据】
│ │ ├── 错误原因分析与理解【核心功能】
│ │ │ ├── 双流大模型错误原因分析【技术实现】
│ │ │ └── 基于错误池的错误原因分析【优化策略】
│ │ └── 对话系统设计【交互方式】
│ ├── 部署与应用【实施】
│ │ ├── 系统界面【用户体验】
│ │ └── 覆盖范围【应用规模】
│ ├── 实验结果【评估】
│ │ ├── 错误分析能力的人工评估【性能指标】
│ │ ├── VATE对学生学习成果的影响【效果分析】
│ │ └── 消融研究【方法验证】
│ ├── 案例研究【实例】
│ │ └── 真实错误分析对话【具体应用】
│ └── 销售人员满意度调查【反馈】
├── 2 结论【总结】
│ ├── VATE系统的创新点【贡献】
│ │ ├── 多模态数据整合【技术特点】
│ │ ├── 双流大语言模型应用【方法创新】
│ │ ├── 错误池优化【效率提升】
│ │ └── 跨学科可扩展性【应用价值】
│ └── 系统效果【成果】
│ ├── 学习成果改善【直接影响】
│ └── 高满意度评价【用户反馈】
└── 3 未来工作【展望】
└── 基于错误分析的学习内容推荐系统【发展方向】
├── 个性化学习路径生成【具体应用】
└── 优化学习成果【预期目标】
以下是对这个系统的详细介绍,重点关注其如何提升学习效果:
AI驱动的虚拟教师系统(VATE)
VATE系统的开发源于传统教育方法在错误纠正方面的局限性。
这些局限包括耗时、劳动密集、泛化能力有限,以及适用范围受限。
随着大模型(LLMs)在数学推理能力上的显著进展,研究者们看到了利用AI技术改革教育方法的机会。
系统设计:
1.1 多模态数据收集:
VATE的一个关键创新是将学生的草稿图像作为主要数据源。
这允许系统更深入地理解学生的思维过程,而不仅仅依赖于最终答案。
1.2 错误原因分析与理解:
双流大模型错误原因分析:系统使用两个并行的大型语言模型,一个用于分析草稿,另一个用于错误原因分析和建议生成。这种方法能够提供更准确和全面的错误诊断。基于错误池的错误原因分析:系统维护一个历史错误池,用于快速匹配常见错误,提高效率并减少计算开销。
1.3 对话系统设计:
VATE采用了一个交互式对话系统,通过引导性问题和提示来帮助学生自主发现和纠正错误,而不是直接提供答案。
这种方法促进了批判性思维和自主学习能力的发展。
部署与应用:
VATE已在Squirrel AI学习平台上广泛部署,覆盖了35个省份和338个城市,影响了大量小学数学教育。
实验结果:
1.4 错误分析能力的人工评估:
专家评估显示,VATE在78.3%的案例中成功进行了错误分析,这个结果在考虑到测试数据的挑战性后显得尤为impressive。
1.5 VATE对学生学习成果的影响:
即使在学生没有立即学会正确答案的情况下,相关知识点的错误率也下降了15%。当学生与系统进行高效沟通时,相关知识点的错误率比不使用系统的学生降低了37%。学习效率(NQCT)和问题解决准确性(ARCT)都有明显提高。学生重看视频学习相关知识的次数(NVRS)减少了61.5%,表明系统显著提高了知识理解和记忆。
1.6 消融研究:
研究表明,学生草稿、问题内容、正确解法和学生答案这四个元素都对系统的性能有重要影响,其中正确解法的影响最大。
案例研究:
通过一个真实的错误分析对话案例,展示了系统如何引导学生逐步解决问题,培养批判性思维和问题分解能力。
销售人员满意度调查:
调查结果显示,VATE系统在防止不当学习行为、跨学科可扩展性、错误纠正有效性等方面获得了高度评价,总体评分为8.58分(满分10分)。
结论
VATE系统的主要创新点包括多模态数据整合、双流大语言模型应用、错误池优化以及跨学科可扩展性。
这些创新带来了显著的学习成果改善和用户满意度提升。
未来工作
研究团队计划开发基于错误分析的学习内容推荐系统,通过生成个性化学习路径来进一步优化学习成果。
这将使系统能够针对不同类型的错误(如计算错误或概念理解错误)提供更有针对性的练习和学习材料。
总结:
VATE系统通过整合先进的AI技术、多模态数据分析和个性化教学方法,显著提升了学生的学习效果。
它不仅能够准确识别和分析错误,还能通过交互式对话培养学生的独立思考能力。
系统的广泛应用和积极的用户反馈表明,AI驱动的教育技术有潜力彻底改变传统教育模式,为学生提供更有效、更个性化的学习体验。
提出背景
VATE系统旨在解决传统数学教育中错误分析和纠正方法的局限性,通过利用AI技术提供一个高效、个性化、可扩展的自动化错误分析和教学指导系统,以提升学生的学习效果和教育效率。
解法拆解
目的:提升学生的数学学习效果和教育效率
问题:传统数学教育中错误分析和纠正方法的局限性
解法:开发AI驱动的虚拟教师系统(VATE)
子解法1(因为需要全面理解学生思维过程):多模态数据收集
之所以用多模态数据收集子解法,是因为需要深入理解学生的解题思路和错误来源。例如:收集学生的草稿图像,而不仅仅是最终答案。
子解法2(因为需要准确分析错误原因):错误原因分析与理解
之所以用错误原因分析与理解子解法,是因为需要精确识别学生的错误类型和原因。例如:使用双流大模型分别分析草稿和生成错误分析。
子解法2.1(因为需要高效处理大量数据):双流大模型错误原因分析
之所以用双流大模型错误原因分析子解法,是因为需要同时处理图像和文本数据,并进行复杂的推理.例如:一个模型分析草稿图像,另一个模型生成错误分析和建议。
子解法2.2(因为需要提高系统效率):基于错误池的错误原因分析
之所以用基于错误池的错误原因分析子解法,是因为需要快速匹配常见错误,减少计算开销。例如:维护一个历史错误池,快速匹配新的错误。
子解法3(因为需要引导学生自主学习):对话系统设计
之所以用对话系统设计子解法,是因为需要通过交互促进学生的批判性思维和自主学习能力。例如:设计引导性问题,而不是直接提供答案。
子解法4(因为需要验证系统效果):实验评估
之所以用实验评估子解法,是因为需要客观衡量系统的性能和对学习效果的影响。例如:进行人工评估、学习成果分析和消融研究。
子解法5(因为需要持续优化系统):反馈收集与分析
之所以用反馈收集与分析子解法,是因为需要了解用户体验并持续改进系统。例如:进行销售人员满意度调查。
子解法的逻辑链(决策树形式):
├── 多模态数据收集
├── 错误原因分析与理解
│ ├── 双流大模型错误原因分析
│ └── 基于错误池的错误原因分析
├── 对话系统设计
├── 实验评估
└── 反馈收集与分析
这是一个链条式的逻辑结构,各个子解法按照系统的工作流程依次展开,但也有部分并行的关系(如错误原因分析中的两个子解法)。
隐性特征分析:
在分析VATE系统的解法步骤时,我发现了一个隐性的特征和对应的方法:
隐性特征:学生错误的动态变化和学习进展
隐性方法:自适应学习路径生成
这个特征隐藏在系统的多个解法步骤中,特别是在错误原因分析、对话系统设计和实验评估这些步骤中。
系统不仅仅是静态地分析每个错误,而是在持续的交互过程中捕捉学生学习的动态变化,并据此调整教学策略。
定义这个隐性方法:
自适应学习路径生成:基于学生的错误模式、学习进展和交互历史,动态调整教学内容和难度,为每个学生创建个性化的学习路径。
这个方法涉及以下几个关键步骤:
跟踪学生的错误模式变化分析学生在多次交互中的进步情况根据学生的表现动态调整问题难度和类型生成针对性的练习和学习材料
这个隐性方法贯穿了VATE系统的多个组件,体现了系统的智能化和个性化特征,是实现高效学习的关键因素之一。
输入输出全流程
全方位的创新分析
组合:
将VATE系统与虚拟现实(VR)技术结合,创造沉浸式学习环境,让学生在3D空间中可视化数学概念。融合游戏化元素与VATE系统,通过关卡设计和奖励机制提高学习动力。
拆开:
将VATE系统拆分为独立模块:错误识别模块、个性化建议模块、学习进度追踪模块等,使各模块可单独优化。开发微型版VATE,专注于单一数学概念的深度学习。
转换:
将VATE从学生辅导工具转换为教师培训平台,帮助教师提高错误识别和个性化教学能力。将VATE的错误分析能力应用于其他领域,如编程教育或语言学习。
借用:
借鉴社交媒体的互动机制,在VATE中引入学生间的协作学习和良性竞争。利用电子游戏中的成就系统,为学生设立学习里程碑和徽章奖励。
联想:
受启发于蜜蜂的蜂巢结构,设计一个知识网络系统,帮助学生建立数学概念间的联系。模仿树木生长过程,创建一个可视化的学习进度树,随着学生掌握更多知识而不断成长。
反向思考:
设计"反向VATE",让学生创造错误题目,培养批判性思维。开发"错误挑战模式",鼓励学生故意犯错,然后分析自己的错误。
问题:
深入探讨"为什么学生会犯错",开发一个错误根源分析系统。研究"如何让学习变得有趣",创造一个基于情感反馈的学习体验优化系统。
错误:
将VATE系统的错误预测作为学习资源,帮助学生预防常见错误。开发"错误银行",收集和分类各种错误,作为学习案例库。
感情:
引入情感识别技术,根据学生的情绪状态调整学习内容和节奏。创建虚拟学习伙伴,提供情感支持和鼓励。
模仿:
模仿人类导师的耐心和适应性,开发更具同理心的AI辅导系统。借鉴精英运动员的训练方法,设计针对性的数学技能训练计划。
最渴望联结:
将VATE与学生最向往的未来职业联系,展示数学在各行业的应用。结合流行文化元素,如将数学问题融入热门影视作品场景中。
空隙填补:
开发实时家长参与模块,填补家校沟通的空白。创建跨学科学习模块,连接数学与其他学科知识。
再定义:
将VATE重新定义为"数学思维教练",强调培养思考方式而非单纯解题。将错误视为"创新机会",鼓励学生从错误中学习和创新。
软化:
引入幽默元素,如有趣的错误动画,软化学习过程中的挫折感。开发"数学奇遇记"模式,将学习过程变成有趣的探险。
附身:
让学生扮演"小老师"角色,教导AI角色解决问题,加深理解。创建名人数学家角色,学生可以"附身"体验不同的数学思维方式。
配角:
强化VATE的数据可视化功能,将其发展为独立的学习分析工具。开发家长辅助模块,帮助家长更好地支持孩子的学习。
刻意:
设计"极限挑战"模式,提供极其复杂的问题,刺激学生的创造性思维。创建"无解题"环节,鼓励学生探索开放性问题和创新性思维。
评选标准:
创新性:idea的独特程度可行性:技术和资源要求教育价值:对提升学习效果的潜在贡献用户吸引力:对学生的吸引力和参与度扩展性:应用到其他学科或领域的潜力
基于这些标准,以下创新点最为突出:
VR结合VATE创建沉浸式学习环境:
创新性高,将先进技术与教育深度结合可行性中等,需要额外的VR设备支持教育价值高,可以极大提升抽象概念的理解用户吸引力强,符合当代学生的技术偏好扩展性强,可应用于多个学科
情感识别技术结合的自适应学习系统:
创新性高,将情感因素纳入学习过程可行性中等,需要整合情感识别技术教育价值高,可以根据学生状态优化学习体验用户吸引力强,提供个性化和情感化的学习体验扩展性强,适用于各类学习场景
"数学思维教练"的再定义:
创新性中等,但概念转变具有重要意义可行性高,主要是理念和内容的调整教育价值极高,注重培养思维能力而非机械解题用户吸引力中等,需要正确传达其价值扩展性强,思维训练模式可应用于各学科
这三个创新点在创新性、教育价值和扩展性上都表现出色,同时具有较好的可行性和用户吸引力。
其中,VR结合VATE的创新最为突出,有潜力彻底改变数学学习的方式,创造全新的教育体验。
翻译
在数学问题解决过程中,学生经常会出现错误。教师不应仅仅识别和纠正这些错误,而应该详细标记学生答案中的每一个错误,以深入理解学生的困难所在,而不是简单地将整个答案标记为错误。
这种细致的评分方法能帮助教师快速准确地找出学生的具体错误,从而提供更有针对性的指导。
在传统教育中,教育专家通常会分析学生的错误,以帮助教育者更好地理解这些错误。
随着机器学习技术的发展,一些研究开始关注收集大量学生数据来识别特定的错误模式。
这种数据驱动的方法旨在找出最有效的教学策略,以解决学生的技能不足或误解问题。
然而,现有方法面临几个重大局限性:
耗时费力:通常需要教育专家提供一对一辅导,或建立系统来分析学生长期的作业以识别共同模式。这个过程既具挑战性又耗时,仍然是教育者面临的重大障碍。
泛化能力有限:为个别学生识别的错误类型难以推广到其他学生。每个学生都需要经历同样复杂的过程,这使得难以将见解应用到更广泛的学生群体。
应用受限:不同学科和年级可能需要不同的系统和专家,这意味着识别的错误原因通常只适用于已收集的特定数据。
近年来,大模型( LLMs )在数学推理方面取得了显著进展,特别是在解决数学应用题方面。
这些模型擅长理解复杂的数值上下文和多步推理,表现出色。
然而,目前的研究主要集中在问题解决能力上,包括答案的正确性和中间推理步骤的一致性。
在教育技术领域,从各种来源获得的问题通常都附带详细的解决方案,尽管这些解决方案的质量可能有所不同。
因此,答案的准确性相对容易评估。相比之下,识别和纠正错误——这是提高教育效率的关键方面——却被低估或忽视了。
为了最大化教育效果,准确识别和解决个别学生的问题至关重要。
鉴于深度学习的快速发展,我们探讨了是否可以利用大型模型在数学推理方面的潜力来实现以下愿景:
能否利用先进 LLMs 的数学推理能力来创建一个 AI 驱动的虚拟教师,自主分析学生错误并提供有针对性的指导?
这种创新方法有潜力大幅降低教育成本,同时提高教学效率和可及性。
为实现这一目标,我们设计、实施并部署了一个专注于学生错误纠正的虚拟 AI 教师系统。
该系统独特地将学生草稿作为主要分析对象,深化了对每个学生学习过程的理解。
通过利用大型语言模型和先进的提示工程,系统能够评估个别学生的表现,准确指出和分析错误的根本原因。
为了优化成本和效率,我们建立了一个错误池,对历史错误进行分类,减少了系统在匹配学生答案时的计算需求。
此外,我们还开发了一个实时的多轮 AI 对话系统,允许学生有效地询问相关知识点,增强了学生的参与度。
与传统教师和基于机器学习的错误纠正系统相比,我们的 VATE 系统具有以下优势:
显著降低教育成本:通过部分用 AI 教学取代人工教学,大幅降低了课程成本。
高可扩展性:系统可以扩展到各种学科和年级水平,不再局限于特定领域的专家教师。
强大的泛化能力:在开放世界错误检测和推荐方面表现出色,具有卓越的泛化能力和实用性。
灵活的教育过程:学生可以随时开始和停止学习,不受外部因素影响。
本文的主要贡献包括:
首次将学生草稿图像的多模态数据引入错误分析,证明了这种方法比传统 AI 技术更有优势。
应用了多种先进技术构建 VATE 系统,包括复杂的提示工程、双流错误分析模型和内部知识点图比较,实现了与用户的便捷交互和多功能分析。
通过构建错误池提高了系统效率,避免了重复调用大型模型,降低了成本。
VATE 系统已在实际教育环境中部署,取得了显著成效。错误分析准确率超过 75%,学生学习效率和知识掌握程度明显提高,用户满意度评分高达 8 分以上(满分 10 分)。
草稿提示:
“请描述这幅图中的数学问题解题草稿,确保任何LaTeX公式都被正确转录。无需描述非数学细节。你不需要解决问题,只需描述草稿图像显示的内容。{学生草稿}”
MLLM(草稿分析):
多模态大语言模型用于草稿分析。
草稿提示 和 学生草稿:
显示了草稿提示和学生实际草稿的位置。
分析提示:
“【问题】{问题}; 【标准解释】{标准解释}; 【正确答案】{正确答案}; 【学生的错误答案】{学生的错误答案}; 【草稿分析】{草稿分析}
你是一位经验丰富的小学数学老师。根据提供的问题、正确答案和学生的错误答案,推断并分析学生错误的原因。通常,错误可能是由于对特定知识点缺乏理解(即学生不知道如何处理问题或没有明确的策略)。另外,错误也可能是由于非知识相关的原因,如误读问题、粗心、符号误解或抄写步骤或答案时出错。我们还分析了学生的草稿,它通常代表了他们的思考过程,草稿分析也提供给你作为参考。”
LMM(错误分析和建议):
语言模型用于错误分析和提供建议。
具体问题示例:
问题:“23×26+ 89=____”标准解释:“按照运算顺序计算,不使用括号。”正确答案:“23 × 26 + 89 = 598 + 89 = 687 因此,答案是:687。”学生的错误答案:“747”
草稿分析结果:
显示了草稿分析结果的位置。
错误分析输出示例:
[错误原因] 乘法计算错误[学生额外知识点定义]:乘法进位:在进行多位数乘法时,如果一位数乘以另一位数的结果超过10,需要将十位数字进位到下一列。例如,在计算23 ×26时…
图片标题:
“图2:VATE的架构。VATE框架是一个多代理系统,首先使用我们专门的草稿提示机制分析用户输入的草稿图像。这个草稿分析,连同学生回答、问题解释和正确答案,然后根据我们预定义的结构格式化并输入到另一个语言模型中。系统最终产生详细的错误分析和建议,指导学生如何正确处理和解决类似问题。”
这个图全面展示了VATE系统的工作流程,从接收学生草稿到生成详细的错误分析和建议,涵盖了整个过程中使用的各种提示、模型和数据流。
多模态数据收集
使用大型模型来判断数学问题解答步骤中的错误是一个非常直观的想法。
在我们项目的初始阶段,我们也尝试使用大型语言模型(LLMs)直接分析错误答案,包括各种复杂的提示工程技术,如输入知识点、答案、解释和学生答案。
然而,LLMs 始终无法提供可靠的错误原因分析,无法有效使用。
由于可用信息有限,LLMs 只能根据最终答案猜测学生中间步骤的错误,这导致了这些猜测的错误率很高。
因此,我们开始倡导学生完整记录他们的计算步骤,并将草稿图像上传到后台,而不仅仅是提交错误答案。
如图1所示,当学生没有在草稿上上传中间步骤时,我们要求他们重做问题。
自从实施要求学生书写草稿的政策以来,提交详细解题过程的学生比例从四个月前的5%上升到了约60%。
强制执行提交草稿的标准不仅提高了学生解题时的专注度,还为我们后续处理提供了更多选择。
截至目前,我们已收集了超过2400万份学生草稿,这对教育行业具有巨大价值。
在我们的项目中,我们还验证了分析包含中间步骤的草稿大大提高了应用大型模型进行错误分析的有效性和可靠性。
错误原因分析和理解
双流大型模型错误原因分析
该框架如图2所示,包括两个模型,分别执行草稿分析和错误原因分析并提供建议。
当学生的答案被标记为错误时,系统会逐步处理他们的草稿、问题、问题解释和正确答案,从而得出错误原因的分析和后续学习的建议。
有效利用草稿数据:
我们探索了多种方法来有效利用草稿数据。
最初,在多模态大型模型达到当前性能之前,我们尝试使用现有的OCR工具分析草稿,然后将其输入LLM进行分析。
然而,这种方法受到OCR工具性能的显著限制,它们只能识别文本和数字信息。
这些工具难以有效解释学生草稿数据的空间结构和数学符号,导致结果不佳。
随着多模态大型模型图像理解能力的逐步提高,我们后来将这些模型整合到我们的系统中。
如图2所示,我们为草稿分析设计了特定的提示,并将其与学生草稿一起输入多模态大型模型。
这些模型随后能够为我们提供草稿中包含的具体信息以及问题解决过程的描述。
生成详细的错误原因和建议:
完成初步草稿分析后,我们自然地将草稿摘要直接输入LLM,使其能够根据中间步骤推断学生的错误原因。
然而,在这个阶段,仅使用草稿数据并比较错误/正确答案提供的信息仍然不足以让LLM执行全面的错误原因分析。
为了克服这个限制,我们系统地试验了我们数据库中几乎所有的条目,并确定了最佳的系统提示。
如图2所示,我们根据图中显示的结构,将问题、其解决方案、正确答案、答案解释、学生的错误答案和草稿分析结合在一起。
我们还添加了精心设计的引导词,使LLM能够全面理解正确答案和学生的完整步骤。这种方法使LLM能够生成详细的错误原因分析,并为学生提供建议。
基于错误池的错误原因分析
使用双流大型模型分析每个学生的答案可以产生良好的结果,但考虑到我们庞大的用户群,可能会出现成千上万的学生同时发送请求的情况。
在这种情况下,调用LLM就成为性能瓶颈,导致严重的效率问题。
此外,我们观察到学生错误的分布遵循长尾模式。
我们分析了2024年4月至5月期间按错误率排名前800名学生的错误池中超过2000个代表性错误。
如图3所示,大多数错误答案属于不到40个类别,每个错误答案的错误原因通常是相同的。
例如,在图2中,计算23×26 + 89为598的唯一原因是忘记加上最后的89。
对于此类错误,无需再次调用大型模型进行重新分析。
相反,我们可以使用存储在历史错误池中的分析和响应来为学生提供建议和反馈。
这种方法不仅避免了多次调用带来的差异,还提高了模型的效率。
具体来说,我们使用错误池进行错误原因分析涉及两个步骤:
错误池匹配:
我们的错误池将问题ID和学生答案对作为哈希键存储,每对都有一个唯一的哈希键。
这意味着我们假设对于每个问题,如果学生提供相同的错误答案,他们的中间步骤可能相似,导致相同的错误原因。
这种基于规则的匹配方法在传统错误分析工具中很常见。
这个假设是合理的,并且在低年级案例(如K5)中已经得到专家验证。
对于更复杂的情况,专家建议我们可以引入额外的哈希键,如中间答案(如果可行的话)。尽管如此,这个假设对于相当一部分问题仍然有效。
如图1所示,当学生提供错误答案时,如果问题ID和学生答案与错误池中的条目匹配,系统直接返回预先计算的错误原因。
否则,答案会传递给我们的双流大型模型进行分析。
错误池更新:
更新错误池可以很简单:每当遇到新的问题ID和学生答案时,就扩展错误池。
然而,有时学生提供完全随机的答案,这些答案没有价值。
此外,对于更复杂的问题,可能存在许多可能的错误。
如果没有限制,这可能导致错误池快速扩张,降低检索效率。因此,我们为更新错误池实施了以下约束:
质量:仅依赖答案是具有挑战性的。
幸运的是,由于我们要求学生上传草稿内容,我们首先要求多模态模型根据清晰度、空间利用率、组织、一致性、修正痕迹和整洁度对草稿进行评分。
得分低的草稿通常反映了学生的随意涂鸦,几乎没有有价值的参考。
只有当草稿质量达到我们的标准时,我们才会用新的问题ID-学生答案对更新错误池。
数量:我们将每个问题的错误池限制在最多100个条目,以减少检索负担。
错误池的主要好处是降低了计算成本。
假设我们系统中的问题总数为N,每个问题的不同学生答案最大数量为K。
那么LLM API调用的总次数(以及消耗的令牌数量)的上限为O(NK),与用户数量、触发频率等无关。
这在预算多模态LLM API调用时特别有利,因为这些调用通常比纯文本调用更昂贵。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。