怎么突破豆瓣电影的反爬虫限制?
蜻蜓代理 · 6年前 · 828字目前,已经完成爬虫的雏形,可以正常的抓取、解析和存储数据了。 但是,在爬取一段时间后(通过是爬取几十个网页),就会出现403错误(Forbidden)。 之后,需要等待一段时间才能再继续抓取。有什么爬虫能突破这种限制,更快速地抓取呢? 最简单经济的方式是:每次出现403错误,你重新让路由器拨号换IP地址就行。不过这样会影响到其他人上网。 或者你可以使用付费的代理IP服务,每个 URL 请求都分配不同的代理IP。 提供一个思路,抓取网上提供的免费代理IP,自己维护一个代理池。GitHub 上有许多开源的方案,可以参考下。 另外就是,如果你的网站流量很高,也考虑让用户来帮你抓取内容。问题
1楼(蜻蜓代理用户)
2楼(匿名用户)
转载请注明
- 蜻蜓代理 - 怎么突破豆瓣电影的反爬虫限制?
- 头条号 - 蜻蜓软件
- 微信公众号:蜻蜓软件(qingtingsoft)