语言模型宽度扩展：简单精确复制竟然胜过复杂初始化策略

Available in: 中文

2026-04-07T16:07:58.684Z·1 min read

关于密集语言模型宽度增长的新研究挑战了如何正确初始化更大模型的假设。反直觉发现：简单的精确复制对称热启动通常优于更复杂的初始化策略。

问题

当你想通过添加更多参数扩展语言模型时，应该如何初始化新参数？

选项：精确复制、扰动、非对称重置、结构化非克隆。

在TinyStories代理上的全面测试：

"从继承的克隆子空间中早期逃离并非通用选择器。" 打破原始权重结构在某些场景中（长确定性训练）有帮助，但在其他场景中（短探测、随机训练）有害。

Comments0