Miasma:用 Rust 编写的 AI 爬虫陷阱工具,让爬虫在毒数据中无限循环
Available in: 中文
Miasma 是 Rust 反 AI 爬虫工具,通过隐藏蜜罐链接引导爬虫进入毒数据无限循环,网站所有者可用 Nginx 代理部署。
工具
Miasma 是一个轻量级 Rust Web 服务器,通过向 AI 爬虫投喂有毒训练数据和无限自引用链接迷宫来困住它们。在 GitHub 上获 60 星。
问题
AI 公司大规模抓取互联网训练模型,网站所有者保护手段有限。Miasma 提供主动防御:毒化爬虫消费的数据。
工作原理
第一步:部署蜜罐链接
添加仅爬虫可见的隐藏链接。style="display:none" 和 aria-hidden="true" 确保人类和屏幕阅读器不可见。
第二步:路由到 Miasma
配置 Nginx 将蜜罐路径代理到 Miasma 端口。
第三步:无限毒循环
爬虫跟随链接后,Miasma 提供:来自「毒泉」的垃圾数据 + 自引用链接形成无限爬取循环,浪费爬虫时间和资源。
技术细节
Rust 编写,快速且低内存,cargo install miasma 安装,可配置链接前缀、端口和行为。
争议
- 有效性:毒数据是否真的会降低模型质量?
- 伦理:故意破坏训练数据是否合理?
- 法律:提供误导性内容的法律影响?
- 猫鼠游戏:爬虫会如何适应和规避陷阱?
Miasma 是日益增长的反抓取工具运动的一部分。
← Previous: Nestlé Loses 12 Tons of Chocolate in Massive Heist: A Sweet Crime Wave?Next: Shenzhou-21 Crew Shares New In-Orbit Vlog: Life and Work Aboard China's Space Station →
0