• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

写出谷歌收录网页的工作流程(google工作手册)


一、告诉搜索引擎如何抓取你的站点

如果你使用谷歌搜索控制台Google Search Console 或在谷歌搜索输入“site:domain.com”,发现一些重要的页面没被收录和或你的一些不重要的页面被错误地收录,有一些途径可以实现指引谷歌机器人让你的网页被更好的收录。 告诉搜索引擎如何抓取你的网站,可以让你更好地控制你网站的什么内容最终会出现在收录中。

大多数人考虑确保谷歌可以找到他们的重要页面,但很容易忘记,可能有一些页面您不希望谷歌机器人找到。 这些可能包括内容较薄的旧url、重复的url(例如电子商务的排序和筛选参数)、特殊的促销代码页面或测试页面等。

要让Googlebot离开站点的某些页面和部分,请使用robots.txt。


二、robots . txt

Robots.txt文件位于网站的根目录(例如yourdomain.com/robots.txt),并通过特定的Robots.txt指令建议搜索引擎应该抓取和不抓取你的网站的哪些部分,以及它们抓取你的网站的速度。

谷歌机器人Googlebot如何处理robots.txt文件

如果Googlebot找不到站点的robots.txt文件,它将继续抓取站点。

如果Googlebot找到一个站点的robots.txt文件,它通常会遵循建议并继续爬行该站点。

如果Googlebot在试图访问一个站点的robots.txt文件时遇到错误,并且不能确定是否存在错误,它将不会抓取该站点。


三、在GSC(谷歌搜索控制台Google Search Console)中定义URL参数

有些站点(电子商务中最常见)通过向url附加某些参数,使相同的内容在多个不同的url上可用。 如果你曾经在网上购物过,你可能已经通过过滤器缩小了搜索范围。 例如,您可以在Amazon上搜索“鞋子”,然后根据尺寸、颜色和样式优化搜索。 每次细化,URL都会有轻微的变化:

谷歌如何知道哪个版本的URL为搜索者服务? 谷歌在选择代表的URL方面做得很好,但是您可以使用谷歌搜索控制台中的URL参数特性来告诉谷歌您希望他们如何处理您的页面。 如果您使用该特性告诉Googlebot“不抓取带有____参数的url”,那么您实际上是要求对Googlebot隐藏该内容,这可能导致从搜索结果中删除这些页面。 如果这些参数创建重复的页面,这是您所希望的,但如果您希望收录这些页面,这样做就不合适了。


四、爬虫能找到你所有的重要内容吗?

现在,您已经了解了一些确保搜索引擎爬虫远离您的不重要内容的策略,让我们了解一下如何可以帮助Googlebot找到重要页面的优化。

有时,搜索引擎可以通过爬行找到站点的某些部分,但其他页面或部分可能因为这样或那样的原因而被隐藏。 重要的是要确保搜索引擎能够发现所有你想要索引的内容,而不仅仅是你的主页。

问问你自己:机器人能爬透你的网站,而不仅仅是爬过去吗?

你的内容隐藏在登录表单后面吗?

如果您在访问某些内容之前要求用户登录、填写表格或回答调查,搜索引擎将不会看到这些受保护的页面。 爬虫不会登录。

你是否依赖于搜索表单?

机器人不能使用搜索表单。 一些人认为,如果他们在自己的网站上放置一个搜索框,搜索引擎将能够找到访问者搜索的所有内容。

文本是否隐藏在非文本内容中?

非文本媒体形式(图像、视频、gif等)不应该用于显示您希望被索引的文字。 虽然搜索引擎在识别图像方面做得越来越好,但还不能保证它们能够阅读和理解图像。 在网页的<HTML>标记中添加文本总是最好的。

搜索引擎能跟随你的网站导航吗?

正如爬虫需要通过来自其他网站的链接来发现你的网站,它需要在你自己的网站上的链接路径来引导它从一个页面到另一个页面。 如果你有一个页面,你想要搜索引擎找到,但它没有链接到任何其他页面,它会就像隐形了一样。 许多网站都犯一个严重的错误,就是用搜索引擎无法访问的方式来构建他们的导航,从而阻碍了他们在搜索结果中被列出的能力。

如下常见的导航错误,可以阻止爬虫看到你网站的所有内容:

移动端导航与你的桌面端导航显示不同的结果

菜单项不在HTML中的任何类型的导航,例如支持javascript的导航。 谷歌在爬行和理解Javascript方面做得更好了,但它仍然不能完美理解。 确保某些东西被谷歌发现、理解和索引的更可靠的方法是将其放入HTML中。

个性化,或者为特定类型的访问者提供独特的导航,可能会被搜索引擎爬虫所掩盖

忘记通过导航链接到你的网站的主页面——记住,链接是机器人跟随到新页面的路径!


以上就是为什么你的网站必须有一个清晰的导航和有用的URL结构的原因。


五、你有干净的信息架构吗?

信息架构是组织和标记网站内容的实践,以提高效率和用户的可发现性。 最好的信息架构是直观的,这意味着用户不必费尽心思地浏览您的网站或查找内容。


六、你在使用网站地图吗?

站点地图正如它听起来的那样:一个站点上的url列表,爬虫程序可以使用它来发现和索引您的内容。 确保谷歌找到最高优先级页面的最简单方法之一是创建一个符合谷歌标准的文件,并通过谷歌搜索控制台提交它。 虽然提交站点地图并不能取代对良好站点导航的需求,但它确实可以帮助爬虫跟踪到所有重要页面的路径。所以,提交站点地图也很重要。

本文链接:https://www.24zzc.com/news/169313463624971.html

相关文章推荐

    无相关信息