关于爬虫中scrapy.Request的更多参数用法

2023-02-07 原文

爬虫中scrapy.Request的更多参数

scrapy.Request的参数

scrapy.Request（url[，callback，method="GET"，headers，body，cookies，meta，dont_filter=Fallse]）

参数解释：

中括号中的参数为可选参数，可写可不写

callback：表示当前的url响应交给哪个函数去处理（默认为parse函数）
meta：实现数据在不同解析函数中传递，meta默认带有部分数据，比如下载延迟、请求深度等（用于解析方法之间的数据传递，常用在一条数据分散在多个不同结构的页面中的情况）
dont_filter：默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求，对需要重复请求的url地址可以把它设置为True，start_urls中的地址会被反复请求，否则程序不会启动
headers：接收一个字典，其中不包括cookies
cookies：接收一个字典，专门放置cookies
method：指定POST或GET请求
body：接收json字符串，为post的数据发送payload_post请求

meta参数

meta的作用：meta可以实现数据在不同的解析函数中的传递

在爬虫文件的parse方法中，增加一个函数parse_detail函数（用来解析另一个页面）：

def parse(self,response):
    ...
    yield scrapy.Request(detail_url, callback=self.parse_detail,meta={"item":item})
...

def parse_detail(self,response):
    #获取之前传入的item
    item = resposne.meta["item"]

就相当于，把parse中解析的数据存到了meta字典中，对应的key为item；而在另一个函数（parse_detail）中，通过meta字典中的key：item来提取parse中的数据，从而实现不同页面数据的拼接

注意：

meta参数是一个字典
meta字典中有一个固定的键proxy，表示代理ip

scrapy中Request中常用参数

url: 就是需要请求，并进行下一步处理的url
callback: 指定该请求返回的Response，由那个函数来处理。
method: 一般不需要指定，使用默认GET方法请求即可
headers: 请求时，包含的头文件。一般不需要。内容一般如下：使用 urllib2 自己写过爬虫的肯定知道

Host: media.readthedocs.org
User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/css,*/*;q=0.1
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
Cookie: _ga=GA1.2.1612165614.1415584110;
Connection: keep-alive
If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
Cache-Control: max-age=0

meta: 比较常用，在不同的请求之间传递数据使用的。字典dict型

request_with_cookies = Request(url="http://www.example.com",
       cookies={'currency': 'USD', 'country': 'UY'},
       meta={'dont_merge_cookies': True})

encoding: 使用默认的 'utf-8' 就行。

dont_filter: indicates that this request should not be filtered by the scheduler.
This is used when you want to perform an identical request multiple times,
to ignore the duplicates filter. Use it with care, or you will get into crawling loops.
Default to False.

errback: 指定错误处理函数

以上为个人经验，希望能给大家一个参考，也希望大家多多支持Devmax。

关于爬虫中scrapy.Request的更多参数用法的更多相关文章

无法使用参数列表在Swift 2中调用“sendAsynchronousRequest”

我目前正在重写部分Swift1.2代码,以便与Swift2.0兼容.实际上我无法弄清楚对“sendAsynchronousRequest”做了哪些更改–目前我的所有请求都失败了Cannotinvoke‘sendAsynchronousRequest’withanargumentlistoftype‘(NSURLRequest,queue:NSOperationQueue,completionHan
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
AngularJS下$http服务Post方法传递json参数的实例

下面小编就为大家分享一篇AngularJS下$http服务Post方法传递json参数的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
php检查函数必传参数是否存在的实例详解

这篇文章主要介绍了php检查函数必传参数是否存在的实例详解的相关资料,需要的朋友可以参考下
vue-router如何实时动态替换路由参数(地址栏参数)

这篇文章主要介绍了vue-router如何实时动态替换路由参数(地址栏参数)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
node.js爬虫框架node-crawler初体验

这篇文章主要介绍了node.js爬虫框架node-crawler的相关资料，帮助大家利用node.js进行爬虫，感兴趣的朋友可以了解下
redirect_uri参数错误的解决方法(必看)

下面小编就为大家带来一篇redirect_uri参数错误的解决方法(必看)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
深入理解JS函数的参数(arguments)的使用

下面小编就为大家带来一篇深入理解JS函数的参数(arguments)的使用。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教