怎么突破豆瓣电影的反爬虫限制？

蜻蜓代理 · 7年前 · 828字

问题

目前，已经完成爬虫的雏形，可以正常的抓取、解析和存储数据了。

但是，在爬取一段时间后（通过是爬取几十个网页），就会出现403错误（Forbidden）。

之后，需要等待一段时间才能再继续抓取。有什么爬虫能突破这种限制，更快速地抓取呢？

1楼（蜻蜓代理用户）

最简单经济的方式是：每次出现403错误，你重新让路由器拨号换IP地址就行。不过这样会影响到其他人上网。

或者你可以使用付费的代理IP服务，每个 URL 请求都分配不同的代理IP。

2楼（匿名用户）

提供一个思路，抓取网上提供的免费代理IP，自己维护一个代理池。GitHub 上有许多开源的方案，可以参考下。

另外就是，如果你的网站流量很高，也考虑让用户来帮你抓取内容。

转载请注明

蜻蜓代理 - 怎么突破豆瓣电影的反爬虫限制？
头条号 - 蜻蜓软件
微信公众号：蜻蜓软件（qingtingsoft）

免费试用

联系我们

联系我们