Python3爬虫教程实战篇之一:抓取猫眼电影TOP100电影
2018-07-03概述 基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。 解析阶段 打开猫眼电影首页 - 榜单 - TOP100榜。 可以看出,采用的是分页的形式。各个页面的 url 如下: 第一页:https://maoyan.com/boa...
阅读全文覆盖框架接入、代理调试、报错排查与反爬应对,为开发和运维提供更直接的技术参考。
概述 基础篇讲了爬虫原理以及采集数据过程中常用的库。现在是时候练练手啦。 解析阶段 打开猫眼电影首页 - 榜单 - TOP100榜。 可以看出,采用的是分页的形式。各个页面的 url 如下: 第一页:https://maoyan.com/boa...
阅读全文Selenium 是什么 Selenium 是一个驱动浏览器的自动化工具,开发它的初衷是自动化测试 web 应用。到了爬虫的年代,爬虫工程师把它拿来模拟浏览器,去抓取普通方式获取不到的数据。 Selenium 的优势 获取 JavaScript...
阅读全文PyQuery 简介 PyQuery 用于对 XML 文档进行操作,比如:查询 XML 文档中的某个元素,获取某个元素的属性等。它的 API 和前端著名框架 jQuery 相似,名字的由来也是基于此。(官方介绍:pyquery: a jquery-like libra...
阅读全文上篇回顾 上篇文章讲解了 Requests 的两个核心类(request 和 response),这篇着重讲解 Requests 如何使用。 Requests 快速入门 安装 通过 pip 安装 $ pip3 install requests 使用 Requests 发送 GET 请求 使用 Req...
阅读全文Requests 是什么 Requests 是 Kenneth Reitz 编写的一个优雅、易用的 HTTP 库。Requests 的底层基于 Python 官方库 urllib,但 Requets 良好的 API 设计更适合人类使用。 Requests 的核心类 Requests 最核心的两个类...
阅读全文现在有许多初学者学习网络爬虫,但他们不懂得控制速度,导致服务器资源浪费。通过 Nginx 的简单配置,能过滤一小部分这类爬虫。 方法一:通过 User-Agent 过滤 Nginx 参考配置如下: location / { if ($http_user_ag...
阅读全文打开 squid.conf,在末尾添加下面的配置: via off forwarded_for off follow_x_forwarded_for deny all request_header_access Via deny all request_header_access X-Forwarded-For deny all request_header_acces...
阅读全文# 允许访问的客户端 acl client_a src 1.2.3.4 acl client_b src 8.8.8.8 http_access allow client_a http_access allow client_b # 禁止其他人访问 http_access deny all
阅读全文
