GPT-2最后一层被解码为27神经元的"异常处理器"路由系统

Available in: 中文

2026-04-07T17:17:45.600Z·1 min read

一项显著的机械可解释性研究将GPT-2 Small的最终MLP层完全解码为27个命名神经元，组织为三层异常处理器。

一项显著的机械可解释性研究将GPT-2 Small的最终MLP层完全解码为27个命名神经元，组织为三层异常处理器。

发现

GPT-2 Small最后一层的MLP不存储知识——它路由知识。全部3072个神经元分解为：

组件	数量	功能
核心神经元	5	将词汇重置为功能词
区分器	10	抑制错误候选
专家	5	检测结构边界
共识神经元	7	监控不同语言维度

异常处理器模型

默认路径 — 核心神经元建立基线功能词使用
异常检测 — 专家识别需要不同处理的结构边界
共识投票 — 7个神经元各监控一个语言维度；交叉点（7个中4-5个同意）统计上 sharply 决定MLP干预是否有益

关键洞察：路由而非存储

研究挑战了流行的"知识神经元"概念。GPT-2第11层的所谓知识神经元实际上是路由基础设施而非事实存储。它们放大或抑制注意力层残差流中已有的信号。

↗ Original source · 2026-04-07T00:00:00.000Z

gpt 2 mechanistic interpre neural networks mlp knowledge neurons ai research deep learning transformer

Comments0