问题
事情是这样的,通过 dns 解析获取到头条服务端的 ip。然后我在服务器的日志上有这个 ip 段的 ip 的请求。
目前,有两个不同的 User-Agent,分别是:
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36
- Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0
请求数大概每小时140到200个这样子。
通过这些信息,能否确定就是今日头条的爬虫?
解答
1楼(蜻蜓代理用户)
不能通过上面的信息确定就是今日头条的爬虫。
主要两点:
- User-Agent 可以模拟;
- IP地址也可以使用代理IP来模拟;
- 同个 ip 段,也能表示就是同个公司的服务器;
2楼(匿名网友)
你说的那两个 User-Agent,都是普通浏览器的 User-Agent。一般来说,正规的爬虫都是表明自己的身份。
比如谷歌的爬虫,就是:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)。百度的爬虫,就是:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。
转载请注明
- 蜻蜓代理 - 【代理IP知识问答】如何识别今日头条的爬虫?
- 头条号 - 蜻蜓软件
- 微信公众号:蜻蜓软件(qingtingsoft)

