小语言模型经适当训练可匹配LLM的搜索Agent能力

Available in: 中文
2026-04-07T22:47:04.578Z·1 min read
研究表明,虽然小语言模型(SLM)作为搜索agent开箱即用时表现不佳,但一种轻量级微调方法可以使其在复杂多跳推理任务上达到LLM水平。

研究表明,虽然小语言模型(SLM)作为搜索agent开箱即用时表现不佳,但一种轻量级微调方法可以使其在复杂多跳推理任务上达到LLM水平。

问题

配备搜索工具的SLM表现出令人惊讶的行为:

解决方案:显式搜索训练

研究人员提出轻量级微调方法,显式训练SLM:

  1. 可靠检索 — 知道何时以及如何搜索
  2. 基于证据回答 — 基于检索证据生成回应
  3. 避免自适应搜索 — 一致的搜索行为优于复杂策略

结果

基准改善结果
Bamboogle+17.3分LLM水平
HotpotQA+15.3分LLM水平

反直觉发现

"SLM中的自适应搜索策略通常会降低性能,强调了一致搜索行为对可靠推理的必要性。"

为什么重要

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: StatsClaw: Multi-Agent Claude Code Architecture for Building Reliable Statistical SoftwareNext: US Lunar Spacecraft Toilet Malfunction: $150 Million Waste Management System Breaks Down on NASA Mission →
Comments0