语言模型宽度扩展:简单精确复制竟然胜过复杂初始化策略
Available in: 中文
关于密集语言模型宽度增长的新研究挑战了如何正确初始化更大模型的假设。反直觉发现:简单的精确复制对称热启动通常优于更复杂的初始化策略。
关于密集语言模型宽度增长的新研究挑战了如何正确初始化更大模型的假设。反直觉发现:简单的精确复制对称热启动通常优于更复杂的初始化策略。
问题
当你想通过添加更多参数扩展语言模型时,应该如何初始化新参数?
选项:精确复制、扰动、非对称重置、结构化非克隆。
令人惊讶的结果
在TinyStories代理上的全面测试:
- 精确复制赢得大多数指标 — 在所有16步探测和随机128步延续中排名第一
- 但不总是 — 结构化非克隆在确定性长期延续中胜出
- 结果混合 — 没有单一策略在所有场景中占主导
关键洞察
"从继承的克隆子空间中早期逃离并非通用选择器。" 打破原始权重结构在某些场景中(长确定性训练)有帮助,但在其他场景中(短探测、随机训练)有害。
实用建议
- 默认精确复制 — 简单、快速,赢得大多数基准
- 考虑替代方案 — 针对特定长程确定性训练
- 宽度增长可行 — 重用较小模型检查点是实用的扩展策略
← Previous: RESCORE: LLM Agents Automatically Recover Simulations from Research Papers at 10x Human SpeedNext: AI Assistance Reduces Persistence and Hurts Independent Performance: New RCT Evidence from 1,222 Participants →
0