怎么突破豆瓣电影的反爬虫限制?

2018-07-04
问题目前,已经完成爬虫的雏形,可以正常的抓取、解析和存储数据了。但是,在爬取一段时间后(通过是爬取几十个网页),就会出现403错误(Forbidden)。之后,需要等待一段时间才能再继续抓取。有什么爬虫能突破这种...

Python3爬虫教程实战篇之一:抓取猫眼电影TOP100电影

2018-07-03
概述基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。解析阶段打开猫眼电影首页 - 榜单 - TOP100榜。可以看出,采用的是分页的形式。各个页面的 url 如下:第一页:https://maoyan.com/board/4...

Python3爬虫教程基础篇之四:Selenium详解

2018-07-03
Selenium 是什么Selenium 是一个驱动浏览器的自动化工具,开发它的初衷是自动化测试 web 应用。到了爬虫的年代,爬虫工程师把它拿来模拟浏览器,去抓取普通方式获取不到的数据。Selenium 的优势获取 JavaScript 渲染...

Python3爬虫教程基础篇之三:PyQuery详解

2018-07-01
PyQuery 简介PyQuery 用于对 XML 文档进行操作,比如:查询 XML 文档中的某个元素,获取某个元素的属性等。它的 API 和前端著名框架 jQuery 相似,名字的由来也是基于此。(官方介绍:pyquery: a jquery-like librar...

大一新生如何快速学习网络爬虫技术?

2018-06-29
1楼(未知网友)这里假设楼主编程零基础。首先:选择一门编程语言,这里建议学习 Python;学习 HTML + CSS,会使用 Chrome 的开发者工具(F12)分析网页;学习网络基本知识,这里需要重点学习 HTTP 协议;学习 Pytho...

Python3爬虫教程基础篇之一:什么是爬虫

2018-06-29
爬虫的定义爬虫,全名为网络爬虫(英文:web crawler),是一种请求网络资源并提取保存的计算机自动化程序。最典型的爬虫是百度爬虫。它通过第一时间收集互联网的最新资源并建立索引,使得用户可以在百度(www.baidu...

使用 Nginx 过滤网络爬虫

2018-05-31
现在有许多初学者学习网络爬虫,但他们不懂得控制速度,导致服务器资源浪费。通过 Nginx 的简单配置,能过滤一小部分这类爬虫。方法一:通过 User-Agent 过滤Nginx 参考配置如下: location / { if ($http...
下一页
免费试用
联系我们 联系我们