做网站当然希望搜索引擎抓取我们网站的内容,但我们做seo优化seo优化时候并不希望所有的信息都公布于众,比如后台隐私,或者其它一些杂七杂八的信息。那么这时候我们就可以能过robots.txt文件来控制网站在搜索引擎中的展示,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎robots访问的部分。
带“*”的一种写法:
user-agent:*disallow:/ad*
allow:/ad/img/
disallow:/*.php$
disallow:/*.jsp$
disallow:/*.css$
这种写法允许所有蜘蛛访问,但会限制以“ad”开头的目录及文件,并限制抓取.php文件、.jsp文件和.css文件。其中disallow:/ad*会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取img目录中的内容,需要将写上第三行“allow:/ad/img/“。
较合理的一种写法:
user-agent:*disallow:/admin
disallow:/content/plugins
disallow:/content/themes
disallow:/includes
disallow:/?s
采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的sitemap路径,大多数搜索引擎都会识别它。
如果对自己写的robots.txt不放心,建议你使用google管理员工具中的“工具->测试robots.txt”来对你的robots.txt进行测试,确保你的修改正确。
常见的自媒体形式有哪些?不得不知seo技术怎样保证网站文章的质量?网站常用字体那些事独立IP主机在网站优化中的作用突出教你怎样一步一步制作一个企业网站传统企业在转型失败的原因有哪些我应该准备什么网站建设资料?如何做好电商网站建设提高用户体验度的技巧