用多模态LLM预测学生视频行为:66门在线课程7700万事件分析
Available in: 中文
AIED 2026接收的研究表明,多模态大语言模型可以仅从视频内容可靠地预测学生视频交互模式。
AIED 2026接收的研究表明,多模态大语言模型可以仅从视频内容可靠地预测学生视频交互模式。
方法
流水线利用MLLM计算短视频片段的嵌入,训练神经分类器识别交互峰值——学生最可能暂停、跳过或倒退的时刻。
数据
- 7700万视频控制事件
- 66门在线课程
- 跨多个学术领域
- 事件作为认知处理的隐式信号
关键发现
- 可靠预测 — MLLM嵌入可靠预测交互峰值
- 跨领域泛化 — 适用于未见学术领域
- 可解释 — 预测编码与理论相关的教学概念
- 成本高效 — 适用于教育视频设计预筛选
理论联系
工作借鉴多媒体学习理论关于最优认知负荷的教学设计。使用概念激活向量,研究者展示模型预测对应GPT-5编码的理论意义教学特征。
实际应用
想象上传一个讲座视频并立即知道哪些片段会导致认知过载、困惑或脱离——这就是该流水线实现的功能。
← Previous: AI Assistance Reduces Persistence and Hurts Independent Performance: New RCT Evidence from 1,222 ParticipantsNext: RACE: Fine-Grained AI Text Detection That Distinguishes Human-Written, LLM-Polished, and Humanized AI Content →
0