数据来源于2022/6/27-2022/7/11 本人CDN日志
无用爬虫
以下信息均来源于各自爬虫的官网,如需知道详细信息请进入UA中的官网查看
AhrefsBot
Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具,通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。
UA
1 | Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/) |
robot.txt
1 | User-agent: AhrefsBot |
爬虫IP范围
1 | 54.36.148.0/24 |
SemrushBot
SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。
UA
1 | Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) |
robot.txt
1 | User-agent: SemrushBot |
无固定IP范围
Barkrowler
Barkrowler 爬虫为 Babbar.tech 提供在线营销和SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。
UA
1 | Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) |
robot.txt
1 | User-agent: barkrowler |
无固定IP范围
PetalBot
PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品,但实际上国内并不能正常访问,所以可以考虑将其屏蔽。
UA
1 | Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot) |
robot.txt
1 | User-agent: PetalBot |
未明确提及IP范围
coccocbot-web
coccocbot是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南,所以对国内网站没有任何帮助。
UA
1 | Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine) |
robot.txt
1 | User-agent: coccocbot-web |
未明确提及IP范围
CensysInspect
Censys平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。
UA
1 | Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/) |
robot.txt
1 | User-agent: CensysInspect |
爬虫IP范围
1 | 162.142.125.0/24 |
BLEXBot
BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息,以避免任何技术和可能的法律问题,并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。
UA
1 | Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) |
robot.txt
1 | User-agent: BLEXBot |
未明确提及IP范围
SeznamBot
SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克,所以对国内网站没有任何帮助。
UA:
1 | Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/) |
robot.txt
1 | User-agent: SeznamBot |
爬虫IP范围
1 | SeznamBot |
DataForSeoBot
DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。
UA
1 | Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) |
robot.txt
1 | User-agent: DataForSeoBot |
未明确提及IP范围
恶意爬虫
爬取wp-login.php
wp-login.php为WordPress站点登录页面,不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用WordPress建站的需要考虑采用保护措施,如修改登录文件名,或通过nginx禁止访问请求。
本次采用的Hexo静态建站,所以并不存在该文件,但仍然在日志中找到了大量IP尝试寻找该文件,请注意提防。
服务器攻击
通过攻击命令寻找服务器漏洞,并进行攻击,多使用getshell漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞:
- Ueditor编辑器任意文件上传漏洞
- DedeCMS 5.7远程文件包含漏洞
- FCKeditor编辑器上传漏洞
- ECSHOP远程代码执行漏洞
- SiteServer CMS漏洞
- PHPCMS任意文件上传漏洞
- TPshop漏洞
- thinkPHP远程代码执行漏洞
- 狮子鱼社区团购系统CMS任意文件上传漏洞
攻击命令不便展示,请注意以上漏洞并及时修复!
虚假爬虫
本人在翻看CDN日志时发现了百度爬虫大量爬取本人的网站,其UA非常正常
1 | Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
但通过百度站长后台可以知道百度爬虫根本就没有爬取(泪目)。
windows下可以通过以下命令来查询爬虫
1 | nslookup [爬虫的IP地址] |
如果是官方的爬虫则会显示IP的DNS记录,并该记录与官方所提供的相符
1 | 名称: baiduspider-220-181-108-91.crawl.baidu.com |
虚假爬虫会显示找不到,或与与官方所提供的不符,注意屏蔽
1 | *** 找不到 [IP地址]: Non-existent domain |
个人爬虫
个人爬虫如果没有指定UA的话,默认可能会显示如下的UA,请注意屏蔽
1 | libcurl-agent |