多亏了它我们可以轻松访问大量数据例如关于机器人访问的内容频率他们在给定日期在我们网站上花费的时间以及他们在发送请求时收到的响应代码。 人接触到的资源它们无法处理的资源以及它们经常使用的资源。我们可以访问 看到的所有子页面。因此我们将检查网站上脚本的执行是否很可能不会干扰访问网站的给定部分例如通过使用网站上存在的 生成的链接。例如我们将通过在列表中搜索给定子页面并可能将机器人访问它的次数与其他页面进行比较来找出答案。
我们还会检查 有问题的页面是否不会对其 处理能力 造成太大负担这意味着某些页面可能会被跳过。我们将根据访问频率对程序中的子页面和资源列表进行排序。例如在下面的屏幕中我们可以看到一条记录产生了多达 个请求与列表中的 香港 WhatsApp 号码列表 其他项目相比这是重要的值。 文件和首页的请求次数与常态没有差异因此我们可以断定这里讨论的资源是爬取时的问题。例如这可能与用于它的技术有关查看子页面原来是在采购流程中使用的。
所以我们可以阻止机器人访问这样的文件这应该转化为抓取预算优化。我要补充一点启用 渲染的 没有找到这个子页面。 服务器日志使我们能够检查许多机器人行为并在某种程度上对他们如何在网站上使用时间做出反应但我们当然不可能彻底了解它们。 站点的服务器端渲染 可以通过多种方式呈现。其中之一是客户端渲染。我们可以在互联网上经常见到他们例如客户端可以是浏览器或 机器人。