1. 首页
  2. WP建站

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

Robots.txt相当于网站针对搜索引擎的开关,指定了哪些搜索引擎不可以抓取,哪些页面不可以被抓取。REP君子协定,并不一定所有搜索引擎都买账。而sitemap相当于网站的地图导航,告诉那些可以进行抓取的搜索蜘蛛此网站有哪些页面,他们的地址和结构是什么样,我已经帮你整理好了,直接用吧。

Robots.txt文件

Robots.txt用于和搜索引擎对话,告知哪些搜索引擎不可以抓取,哪些页面不可以抓取,主要的目的是用于禁止。Robots.txt是默认所有搜索引擎都遵循的一个标准(Robots Exclusion Protocol), REP标准全称为网络蜘蛛排除协议。

查看自己的网站是否有robots.txt文件方法:

http://xxx.com/robots.txt     xxx.com替换成自己的域名, 如果可以打开即表示有robots.txt文件

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

如果没有,怎么生成robots.txt文件?

1、手动编辑一个txt文件即可,仿照以下格式:

User-agent: *

Disallow: 

Disallow: /cgi-bin/

Sitemap: http://ttvps.com/sitemap.xml

2、用在线工具生成:

https://smallseotools.com/robots-txt-generator/

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

生成完成后,下载txt文件,并上传至网站/ 根目录即可。

Robots.txt怎么起作用?

 搜索引擎有两个主要目的:

  • 抓取网页并发现内容
  • 对抓取的内容进行索引并保持,以便用于查询。

为了抓取网站,搜索引擎会沿着链接地址从一个网站跳转到另外一个网站不停工作,最终会抓取全网所有的链接和网站,我们把这种抓取的行为称为“网络蜘蛛”。

 

在到达一个网站时,搜索引擎会首先查询robots.txt文件,如果找到了robots.txt,蜘蛛会首先读取它,查看此文件是否限制了自己的访问(user-agent的作用),如没有限制,则继续查看此网站下哪些目录不能抓取(Disallow的作用)

 怎么使用robots.txt?

  • 必须放于网站根目录下,且没有访问权限限制,如 com/robots.txt
  • txt文件名必须使用英文格式下的小写 “robots.txt”
  • 并不是所有搜索引擎都会遵循REP原则,也就是不是所有蜘蛛都会去读取txt.
  • 如果你的网站有子域名,如ttvps.com,请单独使用子域名的robots.txt.
  • 建议增加sitemap的字段,以便搜索引擎快速找到网站地图。

 

 

XML sitemaps文件,网站地图文件

Sitemaps是一个关于网站的页面列表。主要的作用是用于告诉crwaler蜘蛛程序,此网址有哪些page页面可以被抓取,网址的结构是什么样子。XML只是sitemap的一种格式,也是google、yahoo、bing接受的最常用的格式。

Sitemaps文件并不是必须的,没有此文件蜘蛛程序一样可以抓取网站的页面,但蜘蛛会自己决定抓取哪些页面。如果网站拥有很好的内链结构可以不用sitemap文件,但拥有sitemaps文件将更利于crwaler快速抓取网页,对于新站来说,建议加上sitemaps文件。

怎么查看网站是否有sitemap文件?

http://xxx.com/sitemap.xml, 如果可以打开,如下所示,即表示拥有sitemap文件

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

没有sitemap文件怎么办?

由于sitemaps文件格式较复杂,不建议手动写,可通过在线工具直接生成后上传至网站根目录:

https://www.xml-sitemaps.com/

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了
robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了
robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

由于自动生成的sitemap文件是将所有网站的页面一并抓取,其中有些页面并不是我们想要搜索引擎看到的,如 ttvps.com/admin 等,下载下来后需要适当进行增删:

1、用写字板打开即可,不要用word

2、以<url> </url> 为整体进行增加或删除

3、对于一个新站来说,搜索引擎分配的收录权重有限,搜索引擎也只会根据自身的算法,分配一定的权重,将它认为重要的页面进行收录和索引。所以建议sitemap只放入需要被搜索引擎抓取的重要页面即可,如ttvps.com/login, ttvps.com/password-reset 等这些页面就没必要放入sitemap中,此页面收录没有意义,反而占用了搜索权重。

 

 

robots.txt 和 sitemap.xml文件的作用及用法,看这篇就够了

翻Q,还在买代理,直接搭建一个吧,ttvps.com/ssr  

key: ssr

除声明转载外,文章均为作者原创,未经许可,请勿转载,否则将保留法律追诉权利。发布者:TTVPS

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

联系作者:ttvpscom@163.com

QR code