真是受不鸟百度蜘蛛了...
一时兴起
闲来没事上百度搜了一下自己的站
哦哦,没有镜像站没有人气哪来的镜像站葵鼠又是啥
嗯..很满意
个鬼呀
你这敢再随意点吗QWQ
本着完美主义的精神
开始修改robots.txt了
ROBOTS.TXT是啥
额。。。我也不知道
度娘肯定知道!
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
开始吧
Disallow
很明显就是不能爬哪里
有这么几种写法
Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;
Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;
如果Disallow记录为空,说明该网站的所有部分都允许被访问。
据说在robots.txt里必须要有disallow呢
User-agent
规定哪些蜘蛛可以来啦
规定所有蜘蛛:User-agent:*;
规定某一个蜘蛛:User-agent:BaiduSpider
大概就这些?
好方便..
我去..还有一键生成的=.=
http://tool.chinaz.com/robots/
可恶啊,没早发现
配置好了就等蜘蛛再来爬一下了
溜了溜了
Σ( ° △ °|||)︴一直没管robots文件,因为不知道是啥,原来这么复杂
实际上并不难……不过这好像并不能解决我一开始要解决的问题233
2333这个问题的确挺难解决的