GPT-2最后一层被解码为27神经元的"异常处理器"路由系统

Available in: 中文
2026-04-07T17:17:45.600Z·1 min read
一项显著的机械可解释性研究将GPT-2 Small的最终MLP层完全解码为27个命名神经元,组织为三层异常处理器。

一项显著的机械可解释性研究将GPT-2 Small的最终MLP层完全解码为27个命名神经元,组织为三层异常处理器。

发现

GPT-2 Small最后一层的MLP不存储知识——它路由知识。全部3072个神经元分解为:

组件数量功能
核心神经元5将词汇重置为功能词
区分器10抑制错误候选
专家5检测结构边界
共识神经元7监控不同语言维度

异常处理器模型

  1. 默认路径 — 核心神经元建立基线功能词使用
  2. 异常检测 — 专家识别需要不同处理的结构边界
  3. 共识投票 — 7个神经元各监控一个语言维度;交叉点(7个中4-5个同意)统计上 sharply 决定MLP干预是否有益

关键洞察:路由而非存储

研究挑战了流行的"知识神经元"概念。GPT-2第11层的所谓知识神经元实际上是路由基础设施而非事实存储。它们放大或抑制注意力层残差流中已有的信号。

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: Bidirectional Entropy Modulation: Rethinking Exploration in Reinforcement Learning for LLM ReasoningNext: Data Attribution in Adaptive Learning: Why Standard Methods Fail When AI Generates Its Own Training Data →
Comments0