Lightfeed Extractor：基于 LLM 的 TypeScript 网页抓取库

Available in: 中文

2026-03-26T06:58:57.234Z·1 min read

Lightfeed 开源了一个基于 LLM 的 TypeScript 网页抓取库，处理完整流程：HTML 清理、Markdown 转换、LLM 提取、JSON 解析和带 Zod 模式验证的错误恢复。

Lightfeed Extractor：生产级 LLM 网页抓取 TypeScript 库

Lightfeed 开源了 Lightfeed Extractor，一个 TypeScript 库，处理从原始 HTML 到经过验证的结构化数据的完整流程。

传统网页抓取经常出问题：写好 CSS 选择器，网站改版，一切崩溃。LLM 看似是解决方案，但原始 HTML 充满了导航栏、页脚和跟踪垃圾，消耗 Token 预算。典型产品页面 80% 是噪音。

该库解决了构建数据管道的团队的实际痛点。

Comments0