Python 爬虫制作

Python 爬虫制作二上篇

Python Scrapy 入门指南（上）

Python 爬虫制作二下篇

python 简介

Python 数据库操作

Python SEO专题

robots文件的制作

robots文件的制作规则

  robots文件的制作规则：robots协议的基本语法：
1、User-agent: 应用下文规则的搜索引擎，比如Googlebot,Baiduspider等。
2、Disallow: 要拦截的网址,不允许机器人访问。
3、Allow: 允许访问的网址
4、“*” : 通配符匹配0或多个任意字符包括字母。
5、“$” : 匹配行结束符。
6、“#” : 注释—说明性的文字,不写也可。
7、目录、网址的写法:都以以正斜线 (/) 开头。

制作robots文件注意事项

 1、首字母要大写。
例如：“User-agent”和“Disallow”头一个字母技术大写的！
2、冒号是英文状态下的冒号。
例如：“User-agent:”和“User-agent：”中文状态下的“：”搜索引擎无法识别
3、冒号后要有一个空格，而且有且只能有一个。
例如：“Disallow:空格+你所要屏蔽的内容”！
书写文件名要点：文件名必须为小写，也就是”robots.txt”，不是”ROBOTS.TXT””Robots.txt””roBots.txt”或者其他，不能有大写。

示例一，允许蜘蛛爬行的示例，也是最普遍的示例

User-Agent: *
Allow: /
Sitemap: http://api.1473.cn/seo/sitemapindex.xml
注：允许所有蜘蛛爬行所有网页,网站的sitemap地址为http://api.1473.cn/seo/sitemapindex.xml.后续章节会讲述如何制作sitemap文件。

其他示例

1、允许所有搜索引擎访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
在这里大家要注意下，可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
2、禁止所有搜索引擎访问
User-agent: *
Disallow: /
或者
User-agent: *
allow:
3、禁止所有搜索引擎访问网站中的几个部分，在这里我用a、b、c目录来代替
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
如果是允许，则是
Allow: /a/
Allow: /b/
Allow: /c/
4、禁止某个搜索引擎的访问，我用w来代替
User-agent: w
Disallow: /
或
User-agent: w
Disallow: /d/*.htm
在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL，包含子目录。
5、只允许某个搜索引擎的访问，我用e来代替
User-agent: e
Disallow:
在Disallow：后面不加任何东西，意思是仅允许e访问该网站。
6、使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意思是仅允许访问以”.htm”为后缀的URL
7、禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
8、禁止搜索引擎F抓取网站上所有图片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允许引擎抓取网页，禁止抓取任何图片（严格来说，是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。）
9、只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允许抓取网页和gif格式图片，不允许抓取其他格式图片

工作人员

 
                    作者：楚老师
                    信息录入:楚老师
                    文案编辑:楚老师
                    视频录制:楚老师
                    视频编辑:楚老师
                    图片编辑:楚老师

有思俱乐部学习园地

Python 爬虫制作

Python 爬虫制作二上篇

Python 爬虫制作二下篇

Python 数据库操作

Python SEO专题

robots文件的制作

robots文件的制作规则

制作robots文件注意事项

示例一，允许蜘蛛爬行的示例，也是最普遍的示例

其他示例

工作人员