用多模态LLM预测学生视频行为：66门在线课程7700万事件分析

Available in: 中文

2026-04-07T16:44:36.458Z·1 min read

AIED 2026接收的研究表明，多模态大语言模型可以仅从视频内容可靠地预测学生视频交互模式。

AIED 2026接收的研究表明，多模态大语言模型可以仅从视频内容可靠地预测学生视频交互模式。

方法

流水线利用MLLM计算短视频片段的嵌入，训练神经分类器识别交互峰值——学生最可能暂停、跳过或倒退的时刻。

数据

7700万视频控制事件
66门在线课程
跨多个学术领域
事件作为认知处理的隐式信号

关键发现

可靠预测 — MLLM嵌入可靠预测交互峰值
跨领域泛化 — 适用于未见学术领域
可解释 — 预测编码与理论相关的教学概念
成本高效 — 适用于教育视频设计预筛选

理论联系

工作借鉴多媒体学习理论关于最优认知负荷的教学设计。使用概念激活向量，研究者展示模型预测对应GPT-5编码的理论意义教学特征。

实际应用

想象上传一个讲座视频并立即知道哪些片段会导致认知过载、困惑或脱离——这就是该流水线实现的功能。

↗ Original source · 2026-04-07T00:00:00.000Z

edtech ai education multimodal llm online learning video analysis cognitive load aied

Comments0