1楼(未知网友)

这里假设楼主编程零基础。首先:

  1. 选择一门编程语言,这里建议学习 Python;
  2. 学习 HTML + CSS,会使用 Chrome 的开发者工具(F12)分析网页;
  3. 学习网络基本知识,这里需要重点学习 HTTP 协议;
  4. 学习 Python 的 HTTP 网络库,这里推荐学习 Requests;
  5. 学习正则表达式;
  6. 学习 Beautiful Soup 库;
  7. 学习 Scrapy 爬虫框架;

2楼(匿名网友)

正则表达式是必须学习的,还有学习反爬虫的技巧。比如:如何使用代理IP。

3楼(未知网友)

最简单的,去网上找采集工具,这样可以不用学习一门编程语言。但坏处就是定制能力较差。

4楼(站长)

可以看下《Python网络数据采集》这本书,适合入门。我最近也有在写爬虫相关的教程,之后会一直更新,可以关注下。

第一篇文章:
Python3爬虫教程基础篇之一:什么是爬虫

转载请注明