搜索引擎从哪里开始爬网?

时间:2020-03-05 18:46:57  来源:igfitidea点击:

搜索引擎机器人以什么为起点?它是DNS查找还是从一些固定的知名站点列表开始?有任何猜测或者建议吗?

解决方案

回答

我们可以使用他们的网站提交表单将网站提交给搜索引擎,这将带我们进入他们的系统。当我们真正爬网之后,根据经验就无法说了,通常一次爬网大约需要一周左右的时间(首页,其他几个页面从那里深处链接1个链接)。我们可以使用清晰的语义链接结构来增加检索和索引网页的数量,并提交一个站点地图,这些地图可让我们列出所有网页,并相对彼此进行权重,这有助于搜索引擎了解我们对每个网页的重视程度网站相对于其他网站的一部分。

如果站点是从其他已爬网的网站链接的,则从链接的页面开始,站点也将被爬网,并最终扩展到站点的其余部分。这可能需要很长时间,并且取决于链接站点的爬网频率,因此url提交是让google知道最快方法!

我不能高度推荐的一种工具是Google网站站长工具。它可以让我们查看我们被抓取的频率,googlebot偶然发现的任何错误(链接断开等),并具有许多其他有用的工具。

回答

原则上,它们从零开始。只有当有人明确告诉他们包括他们的网站时,他们才可以开始爬网该网站并使用该网站上的链接进行更多搜索。

但是,在实践中,搜索引擎的创建者将放置一些他们可能想到的任意站点。例如,他们自己的博客或者书签中包含的网站。

从理论上讲,也可以选择一些随机的地址,看看那里是否有一个网站。我怀疑有人这样做吗?上面的方法可以很好地工作,并且不需要额外的编码即可引导搜索引擎。

回答

问题可以通过两种方式解释:

我们是在询问搜索引擎通常从哪里开始搜寻,还是从哪里开始搜寻特定网站?

我不知道大公司的工作方式;但是,如果我们要创建自己的搜索引擎,则可能会将其与流行的门户网站一起播种。 DMOZ.org似乎是一个受欢迎的起点。由于大型参与者拥有比我们更多的数据,因此他们很可能从多个地方开始爬网。

如果我们要询问SE从何处开始抓取特定网站,则可能与哪些页面最受欢迎有关。我想如果我们有一个超级受欢迎的页面,很多其他站点都链接到该页面,那么SE将是从该页面开始输入的页面,因为来自其他站点的入口点很多。

请注意,我没有使用SEO或者其他任何工具;我刚刚为我正在研究的项目研究了机器人和SE流量一段时间。