Perplexity AI再次被发现无视规则抓取网站内容 且用不同的UA绕过防火墙
人工智能搜索公司 Perplexity AI 此前就被指控存在未经授权的抓取行为,即便网站主动在 robots.txt 中声明禁止其抓取内容,但 Perplexity AI 还是会直接无视声明抓取内容。
现在 Cloudflare 发布研究报告称 Perplexity AI 不仅会无视网站声明,同时还采用多种不同的方法绕过防火墙并隐匿其抓取行为,这会给网站 / 出版商造成损失。
robots.txt 是行业规范,网站可以在这个文件中告诉各类爬虫和机器人哪些内容可以抓取,哪些内容不可以抓取,网站也可以设置禁止某些机器人抓取网站的任何内容。
尽管网站已经在 robots.txt 中声明禁止 Perplexity AI 的爬虫抓取内容,不过 Cloudflare 发现 Perplexity AI 并不会遵守该规范,无论是否阻止其爬虫都要没有任何效果。
值得注意的是可能有网站采取更加激进的方式直接屏蔽 Perplexity AI 爬虫,例如当检测到 Perplexity AI 爬虫或者其爬虫所属的 ASN 自治系统时,直接返回 HTTP 403 以阻止访问。
对于这种行为 Perplexity AI 则尝试更换不同的 UA 和 ASN 来绕过屏蔽,具体来说 Perplexity AI 不使用自己的爬虫标准名称,而是伪装成用户访问的常规 UA,同时还更换不同的 ASN 用来阻止 Cloudflare 的识别。
该公司已公开的爬虫 UA:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
试图绕过屏蔽的爬虫 UA:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Cloudflare 表示,最初他们注意到这种情况是因为客户抱怨 Perplexity AI 仍然在抓取网站内容,尽管已经在 robots.txt 中增加禁止抓取的声明以及直接屏蔽了 Perplexity AI 的爬虫程序。
收到客户反馈后 Cloudflare 进行测试检查并确认 Perplexity AI 确实绕过了屏蔽,该公司使用 macOS 和 Chrome UA 替代自己的爬虫 UA 以躲避拦截,避免被网站或 Cloudflare 屏蔽。
基于以上不道德的抓取行为以及采取措施绕过 Cloudflare 防火墙,Cloudflare 宣布将 Perplexity AI 爬虫从已验证的机器人列表中删除,这意味着即便后续 Perplexity AI 抓取使用 Cloudflare 保护的网站时会更加困难。
值得注意的是 Perplexity AI 就此事发布回应称 Cloudflare 就是在推销自己的服务、其文章中的截图显示没有内容被访问、Cloudflare 博客中提到的机器人甚至都不是 Perplexity AI 的等等。
这种回应与 Perplexity AI 此前被批评无视 robots.txt 规则抓取内容类似,该公司似乎从来不会承认自己存在任何问题,每次都是说没有违规或者不是自己抓取。










