新研究：通过生成用户轮次探测语言模型的交互感知能力

Available in: 中文

2026-04-05T17:16:35.636Z·1 min read

标准 LLM 基准测试仅评估助手轮次，未衡量模型是否对其回答后可能发生的事情有感知。新论文提出用生成用户轮次来探测这一差距。

衡量基准测试遗漏的东西：你的 LLM 理解对话吗？

标准 LLM 基准测试仅评估助手轮次，未衡量模型是否对其回答后可能发生的事情有感知。新论文提出用生成用户轮次来探测这一差距。

关键发现

在 11 个开源 LLM 和 5 个数据集上的研究表明，交互感知与任务准确率解耦。Qwen3.5 系列的 GSM8K 准确率从 41%（0.8B）到 96.8%（397B），但确定性生成下的真实后续跟进率接近零。

这意味着什么

当前基准仅衡量一个维度：模型能否正确回答？
它们遗漏了模型是否将对话理解为双向互动
更高温度的采样显示交互感知是潜在的，后续率可达 22%
任务准确率与交互感知之间的差距随模型规模扩大

协作导向的后训练

研究表明针对协作的后训练可以提高后续率，表明这一维度可以在不牺牲任务性能的情况下改善。

为何重要

随着 LLM 作为对话智能体部署，理解它们是否掌握对话的互动性质变得至关重要。arXiv: 2604.02315

ai llm research interaction awarenes benchmarks arxiv qwen

Comments0