阅懒wordpress robots.txtt 多久生效

冬奥会 | 林黛玉 | 供暖 | 混凝土 | 服装面料 | exo | 人口 | 坐月子 | 国家队 | 牙齿美白 | 玄幻小说 | 美杜莎 | 家庭 | 金平区 | 牙齿矫正 | 伊宁市 | 滦州市 | 男士护肤 | 法国 | 大城市 | 威士忌 | 梦想改造家 | 旅游推荐 | 孙悟空 | 机箱 | 周易 | 武术 | ISIS（伊斯兰国） | 艺考 | 骊威 | 温州市 | 易经 | 单片机 | 运动损伤 | 大白菜 | 爽肤水 | 电路设计 | 米酒 | 城市 | 韩国旅游 | 杭州生活 | 新风系统 | 机动车辆保险 | 戚继光 | 唇膏 | 寺庙 | 政府 | 貂蝉 | 咖啡馆 | 葫芦 | 动画制作 | 巴中市 | 美术生 | 房贷 | 意大利 | 暑假 | 香港购物 | 五粮液 | 台风 | 酱油 | 展会 | 名言 | 第三者 | 高三 | 徽州区 | 烹饪学校 | 三菱商事 | 梵蒂冈 | 红木艺术 | 螃蟹 | 自行车选购 | 内黄县 | 成都美食 | 果酒 | 少儿英语 | 酸奶 | 呼和浩特市 | 糕点 | 昌平区 | 宝洁（P&G） | 天气 | 任天堂 | 赛欧 | 火影忍者 | 英国 | 卫生间 | 葡萄 | 双色球 | 印度 | 赋 | 宇宙 | 智商 | 李白 | 延安市 | 合生元 | 洗面奶 | 青年旅舍 | 商标 | 西藏大学 | 抽脂 | 网盘 | 电梯 | 岳阳县 | 歌词 | 旅游线路 | 案件 | 卡通 | 卡地亚（Cartier） | 长春市 | 大红袍 | 少数民族 | 韭菜 | 通辽市 | 西点 | 铜陵市 | 魏无羡 | 食品 | 精酿啤酒 | 乾隆 | 肺炎 | 鲤鱼 | 显示器 | 论文写作 | 婴儿喂养 | 紫檀 | 牛初乳 | 郭德纲 | 老挝 | 中学 | 孝感市 | 嘉兴市 | 进贤县 | 祛痘印 | 鸭绿江 | 前端开发 | 中国教育 | 卫生巾 | 科幻 | 兰蔻（lancome） | 潮牌 | 视频剪辑 | 诛仙 | 余杭区 | 趣味 | 本田（honda） | 福州市 | 酱料 | 礼仪 | 纪录片 | 专升本 | 雪碧 | 写字楼 | 宜昌市 | 辣条 | gucci | 美容化妆 | 身材 | 泾川县 | 亲情 | 菠萝 | 安庆市 | 三国人物 | 朋友关系 | 恋爱心理 | 家装 | 新泰市 | logo设计 | 中国银行 | 大三学生 | 鱼丸 | 方便面 | 机车 | 红木家具 | 咖啡机 | 骨折 | 雅马哈 | 大城县 | 化妆技巧 | 海蛇 | 王建国 | 吸尘器 | 大学生创业 | 埇桥区 | 星座（占星） | 德国 | 陶瓷 | 城市生活 | 姓氏 | 孩子 | 肖战 | 电压 | 糖尿病 | 文景之治 | 江门市 | 铜仁市 | 果冻 | 海西蒙古族藏族自治州 | 狗粮 | 庐山 | 黑暗料理 |

你的位置：网站首页 >> 频道首页 >>文学 >>阅懒wordpress robots.txtt 多久生效

阅懒wordpress robots.txtt 多久生效

来源：蜘蛛抓取(WebSpider) 时间：2017-09-03 10:54 标签： robots.txt 生效

重庆SEO自学网，提供最新网站优化教程和建站视频教程，让每个人都能轻松的学会SEO优化，搭建个人博客网站！
> robots.txt是什么？
robots.txt是一种存放于网站根目录下的文本文件，用于告诉搜索引擎的爬虫(spider)，此网站中的哪些内容是不应被搜索引擎的索引，哪些是可以被索引。robots.txt协议并不是一个规范，而只是约定俗成的，通常搜索引擎会识别这个文件，但也有一些特殊情况。
当我们不希望网站中的某些页面被搜索引擎抓取，也许这些网页在搜索结果中出现对于用户来说并没多大用处，就可以把这些页面放在robots.txt里，这可以保证网站的某些内容不出现在搜索结果中。
本文地址：版权声明：如未注明,均为原创,版权归重庆小飞SEO所有,欢迎分享本文,转载请注明出处！百度站长平台robots工具升级后的新发现 | 张戈博客
博客宗旨把最实用的经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！
<span class="tipso_style" id="tip-w" data-tipso=''>
浏览 7326330
留言 16908
随便挑了些，看你喜欢嘛
关于博客张戈博客是关注互联网以及分享IT运维工作经验的个人博客，主要涵盖了操作系统运维、实用脚本编程以及博客网站建设等经验教程。我的博客宗旨：把最实用的经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！网站 robots.txt 文件编写
robots.txt 是网站根目录下的一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。
当一个搜索机器人（有的叫搜索蜘蛛或爬虫）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt ，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。
robots.txt 必须放置在一个站点的根目录下，而且文件名必须全部小写。
Robots协议（也称为爬虫协议、机器人协议等）的全称是&网络爬虫排除标准&（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
robots.txt 语法
User-agent
一般情况下robot.txt文件会以User-agent:开头，该项的值用于描述搜索引擎机器人robot的名字。
例如User-agent:Baiduspider，就是针对百度蜘蛛进行的协议约束，robots.txt文件中至少要有一条User-agent记录。如果该项的值设为*（通配符），则该协议对任何搜索引擎机器人均有效。如果使用通配符，这样的记录只能有一条。
User-agent:BaiduSpider&
User-agent:*
用来描述不希望被搜索机器人访问到网址。这个网址可以是完整的路径，也就是域名加上目录名或者文件名的格式，也可以是相对，也就是除去了域名，只有文件名或者目录名。
一个Disallow的对应一个文件或者目录，有多少个目录或者文件需要设置就写几个Disallow。
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件
禁止访问Admin目录下的文件
Disallow:/Admin/
禁止某个搜索引擎爬虫的访问
User-agent: BadBot
Disallow: /&
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
& Sitemap: 网站地图告诉爬虫这个页面是网站地图
& Sitemap: &/sitemap.xml&
Allow 和 Sitemap 为非标准语法，可能只有一些大型的搜索引擎会支持，为保证兼容性问题，推荐在 robots.txt 中只使用 User-agent ，Disallow
User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人。Disallow:后面为不允许访问的文件目录。
使用示例：
禁止所有机器人访问特定文件类型
User-agent: *
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
拦截所有的机器人
User-agent: * Disallow: /
允许所有的机器人
User-agent: *
Disallow:&
其他的影响搜索引擎的行为的方法包括使用robots元数据
&meta name="robots" content="noindex,nofollow" /&
Robots META 标签则主要是针对一个个具体的页面。和其他的 META 标签（如使用的语言、页面的描述、关键词等）一样，Robots META 标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META 标签的写法： Robots META 标签中没有大小写之分，name=&Robots&表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=&BaiduSpider&。
content部分有四个指令选项：index、noindex、follow、nofollow，指令间以&,&分隔。 INDEX 指令告诉搜索机器人抓取该页面； FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去； Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。这样，一共有四种组合：
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="ALL"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NONE"＞
目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加。如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令&archive&，可以限制GOOGLE是否保留网页快照。例如：
&mata name="googlebot" content="index,follow,noarchive"＞
表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。
阅读(...) 评论()

阅懒wordpress robots.txtt 多久生效

我要回帖

更多关于 robots.txt 生效的文章

随机推荐

阅懒wordpress robots.txtt 多久生效

我要回帖

更多关于 robots.txt 生效 的文章

随机推荐

更多关于 robots.txt 生效的文章