Lightfeed Extractor:基于 LLM 的 TypeScript 网页抓取库

Available in: 中文
2026-03-26T06:58:57.234Z·1 min read
Lightfeed 开源了一个基于 LLM 的 TypeScript 网页抓取库,处理完整流程:HTML 清理、Markdown 转换、LLM 提取、JSON 解析和带 Zod 模式验证的错误恢复。

Lightfeed Extractor:生产级 LLM 网页抓取 TypeScript 库

Lightfeed 开源了 Lightfeed Extractor,一个 TypeScript 库,处理从原始 HTML 到经过验证的结构化数据的完整流程。

解决的问题

传统网页抓取经常出问题:写好 CSS 选择器,网站改版,一切崩溃。LLM 看似是解决方案,但原始 HTML 充满了导航栏、页脚和跟踪垃圾,消耗 Token 预算。典型产品页面 80% 是噪音。

核心功能

技术细节

该库解决了构建数据管道的团队的实际痛点。

↗ Original source · 2026-03-26T00:00:00.000Z
← Previous: Nit: Git Rebuilt in Zig Saves AI Coding Agents 71% on TokensNext: US Government Buying Americans' Data Without Warrants Through Data Broker Loophole →
Comments0