【代理IP知识问答】如何识别今日头条的爬虫？

问题

事情是这样的，通过 dns 解析获取到头条服务端的 ip。然后我在服务器的日志上有这个 ip 段的 ip 的请求。

目前，有两个不同的 User-Agent，分别是：

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0

请求数大概每小时140到200个这样子。

通过这些信息，能否确定就是今日头条的爬虫？

解答

1楼（蜻蜓代理用户）

不能通过上面的信息确定就是今日头条的爬虫。

主要两点：

User-Agent 可以模拟；
IP地址也可以使用代理IP来模拟；
同个 ip 段，也能表示就是同个公司的服务器；

2楼（匿名网友）

你说的那两个 User-Agent，都是普通浏览器的 User-Agent。一般来说，正规的爬虫都是表明自己的身份。

比如谷歌的爬虫，就是：Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)。百度的爬虫，就是：Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。

转载请注明

蜻蜓代理 - 【代理IP知识问答】如何识别今日头条的爬虫？
头条号 - 蜻蜓软件
微信公众号：蜻蜓软件（qingtingsoft）