robots.txt是一个纯文本文件,是搜索引擎访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立一个robots.txt文件,对网站seo优化有很很好的作用。
每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt(即使这个robots.txt文件只是一个空文件)。
robots.txt的写法(语法)
1)user-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。
2)disallow: 该项的值用于描述不希望被访问到的一个url,一个目录或者整个网站。以disallow开头的url 均不会被搜索引擎蜘蛛访问到。任何一条disallow记录为空,说明该网站的所有部分都允许被访问。
3)用法举例:
网站目录下所有文件均能被所有搜索引擎蜘蛛访问
user-agent: *
disallow:
禁止所有搜索引擎蜘蛛访问网站的任何部分
user-agent: *
disallow: /
禁止所有的搜索引擎蜘蛛访问网站的几个目录
user-agent: *
disallow: /a/
disallow: /b/
禁止搜索引擎蜘蛛访问目录a和目录b
user-agent: googlebot
disallow:
只允许某个搜索引擎蜘蛛访问
您应该限制网站某些文件不被蜘蛛抓取。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
企业使用多云计算的因素深圳网站制作公司分享如何做好网站SEO优化网页设计不可忽视的为企业带来收益基础Seo网站优化策略网络推广营销的思路分析东营响应式网站制作:做响应式网站都有哪些常见的误区?百度不肯收录网站的十个原因网站上线以后运营者要注意的问题有哪些?