数据来源于2022/6/27-2022/7/11 本人CDN日志
无用爬虫
以下信息均来源于各自爬虫的官网,如需知道详细信息请进入UA中的官网查看
AhrefsBot
Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具,通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。
UA
1
| Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
|
robot.txt
1 2
| User-agent: AhrefsBot Disallow: /
|
爬虫IP范围
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107
| 54.36.148.0/24 54.36.149.0/24 195.154.122.0/24 195.154.123.0/24 195.154.126.0/24 195.154.127.0/24 51.222.253.0/26 168.119.64.245 168.119.64.246 168.119.64.247 168.119.64.248 168.119.64.249 168.119.64.250 168.119.64.251 168.119.64.252 168.119.64.253 168.119.64.254 168.119.65.107 168.119.65.108 168.119.65.109 168.119.65.110 168.119.65.111 168.119.65.112 168.119.65.113 168.119.65.114 168.119.65.115 168.119.65.116 168.119.65.117 168.119.65.118 168.119.65.119 168.119.65.120 168.119.65.121 168.119.65.122 168.119.65.123 168.119.65.124 168.119.65.125 168.119.65.126 168.119.65.43 168.119.65.44 168.119.65.45 168.119.65.46 168.119.65.47 168.119.65.48 168.119.65.49 168.119.65.50 168.119.65.51 168.119.65.52 168.119.65.53 168.119.65.54 168.119.65.55 168.119.65.56 168.119.65.57 168.119.65.58 168.119.65.59 168.119.65.60 168.119.65.61 168.119.65.62 168.119.68.117 168.119.68.118 168.119.68.119 168.119.68.120 168.119.68.121 168.119.68.122 168.119.68.123 168.119.68.124 168.119.68.125 168.119.68.126 168.119.68.171 168.119.68.172 168.119.68.173 168.119.68.174 168.119.68.175 168.119.68.176 168.119.68.177 168.119.68.178 168.119.68.179 168.119.68.180 168.119.68.181 168.119.68.182 168.119.68.183 168.119.68.184 168.119.68.185 168.119.68.186 168.119.68.187 168.119.68.188 168.119.68.189 168.119.68.190 168.119.68.235 168.119.68.236 168.119.68.237 168.119.68.238 168.119.68.239 168.119.68.240 168.119.68.241 168.119.68.242 168.119.68.243 168.119.68.244 168.119.68.245 168.119.68.246 168.119.68.247 168.119.68.248 168.119.68.249 168.119.68.250 168.119.68.251 168.119.68.252 168.119.68.253 168.119.68.254
|
SemrushBot
SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。
UA
1
| Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
|
robot.txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
| User-agent: SemrushBot Disallow: / User-agent: SiteAuditBot Disallow: / User-agent: SemrushBot-BA Disallow: / User-agent: SemrushBot-SI Disallow: / User-agent: SemrushBot-SWA Disallow: / User-agent: SemrushBot-CT Disallow: / User-agent: SemrushBot-BM Disallow: / User-agent: SplitSignalBot Disallow: / User-agent: SemrushBot-COUB Disallow: /
|
无固定IP范围
Barkrowler
Barkrowler 爬虫为 Babbar.tech 提供在线营销和SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。
UA
1
| Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)
|
robot.txt
1 2
| User-agent: barkrowler Disallow: /
|
无固定IP范围
PetalBot
PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品,但实际上国内并不能正常访问,所以可以考虑将其屏蔽。
UA
1 2
| Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot) Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
|
robot.txt
1 2
| User-agent: PetalBot Disallow: /
|
未明确提及IP范围
coccocbot-web
coccocbot是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南,所以对国内网站没有任何帮助。
UA
1
| Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)
|
robot.txt
1 2
| User-agent: coccocbot-web Disallow: /
|
未明确提及IP范围
CensysInspect
Censys平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。
UA
1
| Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)
|
robot.txt
1 2
| User-agent: CensysInspect Disallow: /
|
爬虫IP范围
1 2 3 4 5 6 7
| 162.142.125.0/24 167.94.138.0/24 167.94.145.0/24 167.94.146.0/24 167.248.133.0/24 2602:80d:1000:b0cc:e::/80 2620:96:e000:b0cc:e::/80
|
BLEXBot
BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息,以避免任何技术和可能的法律问题,并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。
UA
1
| Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
|
robot.txt
1 2
| User-agent: BLEXBot Disallow: /
|
未明确提及IP范围
SeznamBot
SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克,所以对国内网站没有任何帮助。
UA:
1 2 3 4 5 6
| Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/) Mozilla/5.0 (compatible; SeznamBot/3.2-test4; +http://napoveda.seznam.cz/en/seznambot-intro/) Mozilla/5.0 PhantomJS (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/) Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/) Mozilla/5.0 (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/) Mozilla/5.0 (Linux; U; Android 4.1.2; cs-cz; Seznam screenshot-generator Build/Q3) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
|
robot.txt
1 2
| User-agent: SeznamBot Disallow: /
|
爬虫IP范围
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
| SeznamBot 77.75.76.x 77.75.77.x 77.75.78.x 77.75.79.x 2a02:598:aaaa:2::x 2a02:598:bbbb:2::x FreshBot 77.75.77.31 77.75.79.31 Test version 77.75.73.26 screenshot-generator 77.75.77.123 77.75.77.174 77.75.77.200 77.75.79.123 77.75.79.200 2a02:598:2::1123 2a02:598:2::1200
|
DataForSeoBot
DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。
UA
1
| Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
|
robot.txt
1 2
| User-agent: DataForSeoBot Disallow: /
|
未明确提及IP范围
恶意爬虫
爬取wp-login.php
wp-login.php为WordPress站点登录页面,不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用WordPress建站的需要考虑采用保护措施,如修改登录文件名,或通过nginx禁止访问请求。
本次采用的Hexo静态建站,所以并不存在该文件,但仍然在日志中找到了大量IP尝试寻找该文件,请注意提防。
服务器攻击
通过攻击命令寻找服务器漏洞,并进行攻击,多使用getshell漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞:
- Ueditor编辑器任意文件上传漏洞
- DedeCMS 5.7远程文件包含漏洞
- FCKeditor编辑器上传漏洞
- ECSHOP远程代码执行漏洞
- SiteServer CMS漏洞
- PHPCMS任意文件上传漏洞
- TPshop漏洞
- thinkPHP远程代码执行漏洞
- 狮子鱼社区团购系统CMS任意文件上传漏洞
攻击命令不便展示,请注意以上漏洞并及时修复!
虚假爬虫
本人在翻看CDN日志时发现了百度爬虫大量爬取本人的网站,其UA非常正常
1
| Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
|
但通过百度站长后台可以知道百度爬虫根本就没有爬取(泪目)。
windows下可以通过以下命令来查询爬虫
如果是官方的爬虫则会显示IP的DNS记录,并该记录与官方所提供的相符
1 2
| 名称: baiduspider-220-181-108-91.crawl.baidu.com Address: 220.181.108.91
|
虚假爬虫会显示找不到,或与与官方所提供的不符,注意屏蔽
1
| *** 找不到 [IP地址]: Non-existent domain
|
个人爬虫
个人爬虫如果没有指定UA的话,默认可能会显示如下的UA,请注意屏蔽
1 2 3 4 5 6
| libcurl-agent python-requests Jakarta Commons-HttpClient curl Java feedfinder2
|