Python爬虫Requests库的使用详情

2023-02-13 原文

一、Requests库的7个主要的方法

1.request（）	构造请求，支撑以下的基础方法
2.get（）	获取HTML页面的主要方法，对应于http的get
3.head（）	获取HTML页面的头部信息的主要方法，对应于http的head
	-`以很少的流量获取索要信息的概要内容`
4.post（）	向HTML提交post请求的方法，对应于http的post
	-`向URLpost一个字典将自动编码为form（表单）`
	-`向URLpost一个字符串自动编码为data`
5.put（）	向HTML提交put请求的方法，对应于http的put
6.patch（）	向HTML提交局部修改的请求，对应于http的patch
7.delete（）	向HTML提交删除请求，对应于http的delete

以下代码是描述的request方法中的13个控制访问参数：

import requests

# **kwargs:控制访问的参数，均为可选项，不仅仅是针对request，其他六中方法依旧适用

# params：字典或字节序列，作为参数增加到URL中，可以通过该参数筛选数据
kv = {"key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
# https://python123.io//ws?key1=value1&key2=value2

# data：字典、字节序列或文件对象，作为Request的内容;提交时，作为数据内容添加到当前的连接下
kv = {"key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',params=kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws',params=body)

# json：JSON格式的数据，作为Request的内容
kv = {"key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)

# headers：字典，HTTP定制头,模拟需要的浏览器来进行访问
hd = {"user-agent":"Chrome/10"}
r = requests.request('POST','http://python123.io/ws',headers=hd)

# cookies：字典或CookieJar，Request中的cookie
# auth：元组，支持HTTP认证功能
# files：字典类型，传输文件;将某个文件提交到连接上
fs = {"file":open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)

# timeout：设定超时时间，秒为单位;在规定的时间内没有接收到响应将会显示timeout异常
r = requests.request('POST','http://www.baidu.com',timeout=10)

# proxies：字典类型，设定访问代理服务器，可以增加登录认证
pxs = {'http':'http://user:pass@10.10.10.1:1234', #当我们进入HTTP协议的网站时增加登录认证
'https':'https://10.10.10.1.4321' } #当我们进入HTTPS协议的网站时，直接使用代理服务器的IP地址；可以有效掩盖爬虫的原IP地址
r = requests.request('GET','http://python123.io/ws',proxies=pxs)

# allow_redirects：True/False，默认为True，重定向开关
# stream：True/False，默认为True，获取内容立刻下载的开关
# verify：True/False，默认为True，认证SSL证书开关
# cert：本地SSL证书路径

二、Response对象的属性

status_code	HTTP请求的返回状态码，200表示成功，400表示失败
text	HTTP响应内容的字符串形式，即URL对应的页面内容
encoding	从HTTPheader中猜测的响应内容编码方式
	-`如果header中不存在charset，则认为编码是ISO-8859-1`
apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
	-`从内容中分析出可能的编码形式`
content	HTTP响应内容的二进制形式

import requests

#构造一个向服务器请求资源的Response对象
r = requests.get(url="http://www.baidu.com")

print(r.status_code) #打印请求状态码
#200
print(type(r)) #打印请求对象类型
#<class 'requests.models.Response'>
print(r.headers) #打印请求对象的头部信息
#{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

print(r.text)
print(r.encoding) #ISO-8859-1
print(r.apparent_encoding) #备用编码utf-8
r.encoding = "utf-8"
print(r.text)

直接解析会出现乱码，将字符设为apparent_encoding时会结局问题。

三、爬取网页通用代码

try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常！"

作用：r.raise_for_status()函数判断当前请求返回状态码，当返回状态码不为200时，产生异常并能够被except捕获

import requests

# （定义方法）封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误，产生异常！"

if __name__ =="__main__":
url = "http://www.baidu.com"
print(getHTMLText(url)) #正常显示爬取的页面信息

if __name__ =="__main__":
url = "www.baidu.com" #缺失了
print(getHTMLText(url)) #代码错误，产生异常！

四、Resquests库的常见异常

requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

五、Robots协议展示

import requests
# （定义方法）封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误，产生异常！"

if __name__ =="__main__":
url = "http://www.baidu.com/robots.txt"
print(getHTMLText(url)) #正常显示爬取的页面信息,显示出robots协议对于不同类型爬虫的限制

六、案例展示

1.爬取京东商品信息

在爬取后，我们发现在控制台中返回了带有login？的一个href，并没有具体的信息内容。但是在爬取主页时，可以直接获取主页具体信息。个人认为是由于无法识别是否已经登陆而导致的，后续学习中会跟进知识点及解决方法。（若有大佬会的，感谢评论！）

2.爬取网上图片并保存

import requests
import os

url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg"
root = "F:/图片/" #根目录
path = root   url.split('/')[-1] #以最后一个/后的文字命名
try:
if not os.path.exists(root): #如果不存在根目录文件，则创建根目录文件夹
os.mkdir(root) #该方法只能创建一级目录，如要创建多层，可以遍历循环创建
if not os.path.exists(path):
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content) #r.content返回的是2进制编码，将其写入
f.close()
print("文件已成功保存！")
else:
print("文件已存在~")
except:
print("爬取失败！！！")

到此这篇关于Python爬虫Requests库的使用详情的文章就介绍到这了,更多相关Python Requests库内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python爬虫Requests库的使用详情的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教