wordpress的robots.txt最佳写法!

2016-04-08 23:31 阅读 770 次 评论 0 条

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(Robots Exclusion Protocol),网站经过Robots协议通知搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是国际互联网界通行的品德标准,尊重信 息提供者的志愿维护其隐身,正如08年淘宝网屏蔽蜘蛛,11年京东的一淘网屏蔽了爬虫,都是表现robots.txt的标准互联网的准绳,服从民主自在。 话题有点偏了,回到wordpress如何设置最佳robots.txt。
robots.txt图解
Robots.txt是搜索引擎蜘蛛进站的第一个胃口,首要反省的文件,网站有很多内容例如js,style,插件,图片是无需爬虫去抓取的,对博客网站 来说文章才是重中之重,把一切力气放在文章,一点击破,而不是糜费资源做无用功,而wordpress默许的robots.txt是:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

这只是其中的一小局部,对不懂优化的人来说,屏蔽这些应该曾经足够,但对SEO来说,就是追求完满,没有最好只要更好,那么要屏蔽那些,如何屏蔽呢

1.静态页面对搜索引擎不敌对,搜索引擎的口味是静态页面,所以可以屏蔽静态页面,前提是网站要伪静态,

Disallow: /*?* 限制静态页面 /%post_id%.html 伪静态设置

2.管理员登录界面,既然是管理员就没必要给爬虫抓取,登录界面对用户也没用

Disallow: /wp-admin/ 限制管理员登陆页面

3.插件、模板、js文件这些是网站的后台顺序代码,也可以屏蔽

Disallow: /wp-content/plugins/ 限制插件文件

Disallow: /wp-content/themes/ 限制模板文件

Disallow: /wp-includes/ 限制js文件

4.feed,不晓得站长们对这个熟习吗,这个是网站的订阅文件,本来本网站建立也不晓得,只晓得有RSS订阅,在网站域名后加个feed你就清楚了,这个也可以屏蔽。

Disallow: /feed

5.网站的评论,评论被抓取会招致文章的反复,不利于察看剖析,用户体验,但这个视详细状况,团体喜好不一。

Disallow: /comments         限制评论

Disallow: /*?replytocom* 限制每一个评论页面

设置完Robots.txt后,为保险起见,最好用百度站长工具反省一下。robots.txt不只可以制止爬虫爬取网站构造,也可以制止 404页面,搜索蜘蛛十分喜欢网站地图,sitemap可以为搜索引擎蜘蛛指路,添加网站重要内容页面的收录,也有利于用户体验,所以最初一点就是参加网 站地图。

如下是本站的地图:

Sitemap: http://www.llseo.cn/sitemap.xml

版权声明:本文著作权归翎朗SEO所有,欢迎分享本文,谢谢支持!
转载请注明:wordpress的robots.txt最佳写法! | 聊城SEO技术分享_翎朗SEO
分类:WordPress建站问题 标签:

发表评论


表情