少女祈祷中...

数据来源于2022/6/27-2022/7/11 本人CDN日志

无用爬虫

以下信息均来源于各自爬虫的官网,如需知道详细信息请进入UA中的官网查看

AhrefsBot

Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具,通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。

UA

1
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

robot.txt

1
2
User-agent: AhrefsBot
Disallow: /

爬虫IP范围

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
54.36.148.0/24
54.36.149.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
51.222.253.0/26
168.119.64.245
168.119.64.246
168.119.64.247
168.119.64.248
168.119.64.249
168.119.64.250
168.119.64.251
168.119.64.252
168.119.64.253
168.119.64.254
168.119.65.107
168.119.65.108
168.119.65.109
168.119.65.110
168.119.65.111
168.119.65.112
168.119.65.113
168.119.65.114
168.119.65.115
168.119.65.116
168.119.65.117
168.119.65.118
168.119.65.119
168.119.65.120
168.119.65.121
168.119.65.122
168.119.65.123
168.119.65.124
168.119.65.125
168.119.65.126
168.119.65.43
168.119.65.44
168.119.65.45
168.119.65.46
168.119.65.47
168.119.65.48
168.119.65.49
168.119.65.50
168.119.65.51
168.119.65.52
168.119.65.53
168.119.65.54
168.119.65.55
168.119.65.56
168.119.65.57
168.119.65.58
168.119.65.59
168.119.65.60
168.119.65.61
168.119.65.62
168.119.68.117
168.119.68.118
168.119.68.119
168.119.68.120
168.119.68.121
168.119.68.122
168.119.68.123
168.119.68.124
168.119.68.125
168.119.68.126
168.119.68.171
168.119.68.172
168.119.68.173
168.119.68.174
168.119.68.175
168.119.68.176
168.119.68.177
168.119.68.178
168.119.68.179
168.119.68.180
168.119.68.181
168.119.68.182
168.119.68.183
168.119.68.184
168.119.68.185
168.119.68.186
168.119.68.187
168.119.68.188
168.119.68.189
168.119.68.190
168.119.68.235
168.119.68.236
168.119.68.237
168.119.68.238
168.119.68.239
168.119.68.240
168.119.68.241
168.119.68.242
168.119.68.243
168.119.68.244
168.119.68.245
168.119.68.246
168.119.68.247
168.119.68.248
168.119.68.249
168.119.68.250
168.119.68.251
168.119.68.252
168.119.68.253
168.119.68.254

SemrushBot

SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。

UA

1
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

robot.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
User-agent: SemrushBot
Disallow: /
User-agent: SiteAuditBot
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SplitSignalBot
Disallow: /
User-agent: SemrushBot-COUB
Disallow: /

无固定IP范围

Barkrowler

Barkrowler 爬虫为 Babbar.tech 提供在线营销和SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。

UA

1
Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)

robot.txt

1
2
User-agent: barkrowler
Disallow: /

无固定IP范围

PetalBot

PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品,但实际上国内并不能正常访问,所以可以考虑将其屏蔽。

UA

1
2
Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

robot.txt

1
2
User-agent: PetalBot
Disallow: /

未明确提及IP范围

coccocbot-web

coccocbot是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南,所以对国内网站没有任何帮助。

UA

1
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)

robot.txt

1
2
User-agent: coccocbot-web
Disallow: /

未明确提及IP范围

CensysInspect

Censys平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。

UA

1
Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)

robot.txt

1
2
User-agent: CensysInspect
Disallow: /

爬虫IP范围

1
2
3
4
5
6
7
162.142.125.0/24
167.94.138.0/24
167.94.145.0/24
167.94.146.0/24
167.248.133.0/24
2602:80d:1000:b0cc:e::/80
2620:96:e000:b0cc:e::/80

BLEXBot

BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息,以避免任何技术和可能的法律问题,并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。

UA

1
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

robot.txt

1
2
User-agent: BLEXBot
Disallow: /

未明确提及IP范围

SeznamBot

SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克,所以对国内网站没有任何帮助。

UA:

1
2
3
4
5
6
Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)
Mozilla/5.0 (compatible; SeznamBot/3.2-test4; +http://napoveda.seznam.cz/en/seznambot-intro/)
Mozilla/5.0 PhantomJS (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (Linux; U; Android 4.1.2; cs-cz; Seznam screenshot-generator Build/Q3) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30

robot.txt

1
2
User-agent: SeznamBot
Disallow: /

爬虫IP范围

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
SeznamBot
77.75.76.x
77.75.77.x
77.75.78.x
77.75.79.x
2a02:598:aaaa:2::x
2a02:598:bbbb:2::x
FreshBot
77.75.77.31
77.75.79.31
Test version
77.75.73.26
screenshot-generator
77.75.77.123
77.75.77.174
77.75.77.200
77.75.79.123
77.75.79.200
2a02:598:2::1123
2a02:598:2::1200

DataForSeoBot

DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。

UA

1
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

robot.txt

1
2
User-agent: DataForSeoBot
Disallow: /

未明确提及IP范围

恶意爬虫

爬取wp-login.php

wp-login.php为WordPress站点登录页面,不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用WordPress建站的需要考虑采用保护措施,如修改登录文件名,或通过nginx禁止访问请求。
本次采用的Hexo静态建站,所以并不存在该文件,但仍然在日志中找到了大量IP尝试寻找该文件,请注意提防。

服务器攻击

通过攻击命令寻找服务器漏洞,并进行攻击,多使用getshell漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞:

  • Ueditor编辑器任意文件上传漏洞
  • DedeCMS 5.7远程文件包含漏洞
  • FCKeditor编辑器上传漏洞
  • ECSHOP远程代码执行漏洞
  • SiteServer CMS漏洞
  • PHPCMS任意文件上传漏洞
  • TPshop漏洞
  • thinkPHP远程代码执行漏洞
  • 狮子鱼社区团购系统CMS任意文件上传漏洞

攻击命令不便展示,请注意以上漏洞并及时修复!

虚假爬虫

本人在翻看CDN日志时发现了百度爬虫大量爬取本人的网站,其UA非常正常

1
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

但通过百度站长后台可以知道百度爬虫根本就没有爬取(泪目)。
windows下可以通过以下命令来查询爬虫

1
nslookup [爬虫的IP地址]

如果是官方的爬虫则会显示IP的DNS记录,并该记录与官方所提供的相符

1
2
名称:    baiduspider-220-181-108-91.crawl.baidu.com
Address: 220.181.108.91

虚假爬虫会显示找不到,或与与官方所提供的不符,注意屏蔽

1
*** 找不到 [IP地址]: Non-existent domain

个人爬虫

个人爬虫如果没有指定UA的话,默认可能会显示如下的UA,请注意屏蔽

1
2
3
4
5
6
libcurl-agent
python-requests
Jakarta Commons-HttpClient
curl
Java
feedfinder2