python爬虫入门---第四篇：网站对爬虫的限制及突破测试

大部分网站对网络爬虫都有限制，限制方式有两种：

一、Robots协议；二、网站通过判断对网站访问http的头部信息来查看是否是爬虫，并对爬虫做相关拦截

第一种限制是书面限制，第二种是强制性阻拦限制。那我们如何去突破第二种限制呢？

首先我们要爬取一个网站大部分会使用requests库的get()方法，而get()方法返回的response对象中包含了我们对网站的请求信息。例如：

url = 'https://www.cnblogs.com/huwt/'

res = requests.get(url)

print(res.request.headers)-----------------------------------------------输出结果：{'User-Agent': 'python-requests/2.19.1','Accept-Encoding': 'gzip,deflate','Accept': '/','Connection': 'keep-alive'}

通过请求的头部信息我们可以看到一个键值对：'User-Agent': 'python-requests/2.19.1'，而强制性的限制就是通过判断'User-Agent'的值来判断是否为爬虫，

只要我们将请求对象中'User-Agent'的值修改为浏览器的'User-Agent'即可，例如：

url = 'https://www.cnblogs.com/huwt/'

res = requests.get(url,headers = {'User-Agent':'Mozilla/5.0'})

print(res.request.headers)

-----------------------------------------------输出结果：{'User-Agent': 'Mozilla/5.0','Connection': 'keep-alive'}

我们可以看到通过修改get()方法的参数就能将'User-Agent'的值被修改为'Mozilla/5.0'，此时我们的爬虫模拟成了Mozilla/5.0浏览器，

这样就可以不被识别的去访问一些有所限制的网站了。

提醒：

以上方法只供实验测试使用，任何一名爬虫使用者都应遵守Robots协议，文明爬取网站。

热点

python爬虫入门---第四篇：网站对爬虫的限制及突破测试

由 dawei

您错过了

ADODB连接Access数据库实战操作指南

色彩搭配宝典：解锁网站视觉设计超吸睛新技巧

ASP与MySQL数据库整合配置及实战操作指南

站长揭秘：AI实战引领资讯分享，开启智慧新篇章

python爬虫入门---第四篇：网站对爬虫的限制及突破测试

由 dawei

相关文章

python – igraph：为什么add_edge函数如此缓慢地对add_edges？

python – 与布尔numpy数组VS PEP8 E712的比较

为什么python库不作为pyc提供？

您错过了

ADODB连接Access数据库实战操作指南

色彩搭配宝典：解锁网站视觉设计超吸睛新技巧

ASP与MySQL数据库整合配置及实战操作指南

站长揭秘：AI实战引领资讯分享，开启智慧新篇章