Lightfeed Extractor:基于 LLM 的 TypeScript 网页抓取库
Available in: 中文
Lightfeed 开源了一个基于 LLM 的 TypeScript 网页抓取库,处理完整流程:HTML 清理、Markdown 转换、LLM 提取、JSON 解析和带 Zod 模式验证的错误恢复。
Lightfeed Extractor:生产级 LLM 网页抓取 TypeScript 库
Lightfeed 开源了 Lightfeed Extractor,一个 TypeScript 库,处理从原始 HTML 到经过验证的结构化数据的完整流程。
解决的问题
传统网页抓取经常出问题:写好 CSS 选择器,网站改版,一切崩溃。LLM 看似是解决方案,但原始 HTML 充满了导航栏、页脚和跟踪垃圾,消耗 Token 预算。典型产品页面 80% 是噪音。
核心功能
- HTML 到 Markdown 转换,提取主要内容(去除导航、标题、页脚)
- 支持任何 LangChain 兼容 LLM(OpenAI、Gemini、Claude、Ollama 等)
- Zod 模式进行类型安全的提取和验证
- 从格式错误的 LLM 输出中恢复部分数据(20 个产品解析成功 19 个就返回 19 个)
- 内置 Playwright 浏览器自动化(本地、无服务器或远程)带反机器人补丁
- URL 清理(相对 URL、Markdown 转义链接、跟踪参数)
技术细节
- Apache 2.0 许可
- npm:
@lightfeed/extractor - 在 Lightfeed 生产环境中使用
- GitHub: github.com/lightfeed/extractor
该库解决了构建数据管道的团队的实际痛点。
← Previous: Nit: Git Rebuilt in Zig Saves AI Coding Agents 71% on TokensNext: US Government Buying Americans' Data Without Warrants Through Data Broker Loophole →
0