一些搜索引擎的UserAgent关键字
收集一些搜索引擎爬虫蜘蛛的UserAgent关键字,做访问统计/访问过滤时可以在程序里踢除这些访问。
(Request的Header里把user-agent提取出来,判断后进行处理)
常见的搜索引擎UserAgent,这个就不解释了。
------------------
Googlebot
GOOGLE/谷歌
Baiduspider
百度
Yahoo! Slurp
雅虎
Sosospider / Sosoimagespider
搜搜 - 这个太疯狂,上次有个客户的网站放了一些明星照片,虚拟主机竟然被拖垮了。
Sogou / Sogou-Test-Spider
搜狗 - 初期时,抓取效率非常低,现在情况未知。
YodaoBot
网易/有道
MSNBot
MSN/Bing/必应
不常见的搜索引擎UserAgent
-------------------
MJ12bot
听说是一家英国搜索引擎公司,没看到什么流量过来。
HuaweiSymantecSpider
HuaweiSymantecSpider是华为赛门铁克公司网络木马分析引擎的一个自动程序,它的功能是从互联网上下载网页并进行网络木马分析,以检查您网站上的是否被恶意挂马。
IA_Archiver
Alexa启用了一个叫做IA_Archiver的机器人程序,这个机器人程序类似Google等搜索引擎使用的蜘蛛程序,专门在互联网上爬行,刺探每个Web页面的流量信息。尤其是当某个网站的流量超过Alexa设定的阈值时,IA_Archiver就会马上爬到该网站的服务器上,分析此网站是否正常,有没有作弊行为。