帮助中心 - 第7页

怎么突破豆瓣电影的反爬虫限制？

2018-07-04

问题目前，已经完成爬虫的雏形，可以正常的抓取、解析和存储数据了。但是，在爬取一段时间后（通过是爬取几十个网页），就会出现403错误（Forbidden）。之后，需要等待一段时间才能再继续抓取。有什么爬虫能突破这种...

什么是全局代理，什么是局部代理？分别怎么设置？

2018-07-03

1楼（匿名网友）什么是全局代理，什么是局部代理？

Python3爬虫教程实战篇之一：抓取猫眼电影TOP100电影

2018-07-03

概述基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。解析阶段打开猫眼电影首页 - 榜单 - TOP100榜。可以看出，采用的是分页的形式。各个页面的 url 如下：第一页：https://maoyan.com/board/4...

Python3爬虫教程基础篇之四：Selenium详解

2018-07-03

Selenium 是什么Selenium 是一个驱动浏览器的自动化工具，开发它的初衷是自动化测试 web 应用。到了爬虫的年代，爬虫工程师把它拿来模拟浏览器，去抓取普通方式获取不到的数据。Selenium 的优势获取 JavaScript 渲染...

Python3爬虫教程基础篇之三：PyQuery详解

2018-07-01

PyQuery 简介PyQuery 用于对 XML 文档进行操作，比如：查询 XML 文档中的某个元素，获取某个元素的属性等。它的 API 和前端著名框架 jQuery 相似，名字的由来也是基于此。（官方介绍：pyquery: a jquery-like librar...

Python3爬虫教程基础篇之二：网络库Reqeusts详解（下）

2018-06-30

上篇回顾上篇文章讲解了 Requests 的两个核心类（request 和 response），这篇着重讲解 Requests 如何使用。Requests 快速入门安装通过 pip 安装$ pip3 install requests使用 Requests 发送 GET 请求...

Python3爬虫教程基础篇之二：网络库Reqeusts详解（上）

2018-06-30

Requests 是什么Requests 是 Kenneth Reitz 编写的一个优雅、易用的 HTTP 库。Requests 的底层基于 Python 官方库 urllib，但 Requets 良好的 API 设计更适合人类使用。Requests 的核心类Requests 最核心的两个类，...

大一新生如何快速学习网络爬虫技术？

2018-06-29

1楼（未知网友）这里假设楼主编程零基础。首先：选择一门编程语言，这里建议学习 Python；学习 HTML + CSS，会使用 Chrome 的开发者工具（F12）分析网页；学习网络基本知识，这里需要重点学习 HTTP 协议；学习 Pytho...

Python3爬虫教程基础篇之一：什么是爬虫

2018-06-29

爬虫的定义爬虫，全名为网络爬虫（英文：web crawler），是一种请求网络资源并提取保存的计算机自动化程序。最典型的爬虫是百度爬虫。它通过第一时间收集互联网的最新资源并建立索引，使得用户可以在百度（www.baidu...

使用 Nginx 过滤网络爬虫

2018-05-31

现在有许多初学者学习网络爬虫，但他们不懂得控制速度，导致服务器资源浪费。通过 Nginx 的简单配置，能过滤一小部分这类爬虫。方法一：通过 User-Agent 过滤Nginx 参考配置如下： location / { if ($http...