问题

事情是这样的,通过 dns 解析获取到头条服务端的 ip。然后我在服务器的日志上有这个 ip 段的 ip 的请求。

目前,有两个不同的 User-Agent,分别是:

  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36
  • Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0

请求数大概每小时140到200个这样子。

通过这些信息,能否确定就是今日头条的爬虫?

解答

1楼(蜻蜓代理用户)

不能通过上面的信息确定就是今日头条的爬虫。

主要两点:

  1. User-Agent 可以模拟;
  2. IP地址也可以使用代理IP来模拟;
  3. 同个 ip 段,也能表示就是同个公司的服务器;

2楼(匿名网友)

你说的那两个 User-Agent,都是普通浏览器的 User-Agent。一般来说,正规的爬虫都是表明自己的身份。

比如谷歌的爬虫,就是:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)。百度的爬虫,就是:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

转载请注明