问题

目前,已经完成爬虫的雏形,可以正常的抓取、解析和存储数据了。

但是,在爬取一段时间后(通过是爬取几十个网页),就会出现403错误(Forbidden)。

之后,需要等待一段时间才能再继续抓取。有什么爬虫能突破这种限制,更快速地抓取呢?

1楼(蜻蜓代理用户)

最简单经济的方式是:每次出现403错误,你重新让路由器拨号换IP地址就行。不过这样会影响到其他人上网。

或者你可以使用付费的代理IP服务,每个 URL 请求都分配不同的代理IP。

2楼(匿名用户)

提供一个思路,抓取网上提供的免费代理IP,自己维护一个代理池。GitHub 上有许多开源的方案,可以参考下。

另外就是,如果你的网站流量很高,也考虑让用户来帮你抓取内容。

转载请注明