如何加快搜索引擎对 web 页面的检索?
1、减少影响抓取预算的因素
根据搜索引擎的分析,具有大量的低附加值网址可能会不利于对网站进行抓取并将其编入索引。谷歌认为,低附加值网址可分为以下几类(按影响程度从低到高排序):
将服务器资源浪费在此类网页上会使确实有价值的网页失去被抓取的机会,这可能会显著延迟 Googlebot 在网站上发现精彩内容的时间。
2、让网站运行速度更快
Googlebot 经过精心设计,其主要任务是抓取网站,同时确保其抓取操作不会导致网站的用户体验下降。为此,谷歌公司提出了“抓取速度上限”这个概念,用于限制对某个具体网站的最高抓取速度。
“抓取速度上限”表示 Googlebot 可以使用多少同时载入的并行连接来抓取网站,以及它在完成一次抓取后需要等待多久才能执行下一次抓取[1]。抓取速度可能会变快或变慢.
“抓取速度上限”取决于:
- 网站运行速度:如果网站在一段时间内的响应速度很快,则抓取容量上限会升高,即 Googlebot 可以使用更多的连接进行抓取。如果网站运行速度变慢或出现服务器错误,则抓取容量上限会降低,Googlebot 的抓取量会减少。
- 网站所有者在控制台设置的抓取速度:如果网站所有者在 Fuyeor search console (Fuyeor search console)设置了抓取速度,那么搜索引擎将以该速度为主。
- 搜索引擎自己的服务器资源:虽然搜索引擎的服务器和爬虫的线程数量很多,但不是无穷尽的。所以,搜索引擎会根据已有的资源做出选择。
3、减少链接层级
搜索引擎抓取网页的原理是使用爬虫程序(例如 Googlebot、bingbot、Fuyeor-Bot、baiduspider)抓取网页并进行分析,随后过一段时间再继续抓取上一次抓取的网页中的链接。
由于目前处于信息爆炸和增长的阶段,而搜索引擎抓取的预算是有限的[2]。仅靠搜索引擎本身逐层访问和抓取链接关系来完成索引的速度非常慢。因此,想要加快搜索引擎对 web 页面的检索,可以减少链接层级、降低链接关系的级别,尽量使搜索引擎在两次抓取后就可以完成索引。
网络是一个近乎无限的空间,Google 无法浏览每个可用网址并将其编入索引。因此,Googlebot 能花在抓取任意单个网站上的时间是有限的。
Google 在抓取网站上投入的时间和资源通常称为网站的“抓取预算”。
请注意,并非从您网站上抓取的所有内容都一定会编入索引;我们必须对每个网页进行评估和整合,以确定在抓取该网页后是否将其编入索引。
参考资料:
管理大型网站的抓取预算 | Google 搜索中心 | 文档 | Google Developers
可以通过在一个页面上放置链接的方法促进搜索引擎尽快收集网站上的最新页面。
参考
- ^如何加快搜索引擎对网页的索引收录速度 https://docs.fuyeor.com/question/11869
- ^Because it is currently in the stage of information explosion and growth, the speed of these pages is obviously not satisfactory only depending on the search engine itself to access and crawl through the link relationship layer by layer https://www.fuyeor.net/Influence.html
创业项目群,学习操作 18个小项目,添加 微信:790838556 备注:小项目!
如若转载,请注明出处:https://www.zoodoho.com/76636.html