问题

大家说说工作中,你们使用的反爬虫策略有哪些?

解答

1楼(匿名网友)

常见的反爬虫策略,我了解的有如下几种:

  1. 验证码;
  2. cookie/token 身份识别;
  3. 根据客户端IP地址,限制请求频率;
  4. 接口验签;

使用图形验证码的话,接入识别验证码的平台或者自己使用机器识别图像。这个相对好破解;
使用 cookie/token 的话,维护对应的 cookie池/token池就行。
频率限制的话,使用高匿名的代理IP就能解决。
验签的话,看 js 源码,倒推出签名算法就行。

2楼(蜻蜓代理用户)

在网页中添加一个正常用户不会访问到的地址,或者在发送请求的时候,同时请求一个特别的地址。
通过这些,确定哪些用户是爬虫用户。然后返回一些假数据。

转载请注明