如何访问Scrapy CrawlSpider中的特定start_url？

2019-04-25 原文

我正在使用Scrapy,特别是Scrapy的CrawlSpider类来抓取包含某些关键字的Web链接.我有一个很长的start_urls列表,它从一个连接到Django项目的sqlite数据库中获取它的条目.我想在此数据库中保存已删除的Web链接.

我有两个Django模型,一个用于http://example.com等开始网址,另一个用于网页链接,例如http://example.com/website1,http://example.com/website2等.所有抓取的Web链接都是start_urls列表中某个起始URL的子网站.

Web链接模型与起始URL模型具有多对一关系,即Web链接模型具有到开始URL模型的外键.为了将我的已删除的Web链接正确保存到数据库,我需要告诉CrawlSpider的parse_item()方法,该方法启动了已删除的Web链接所属的URL.我怎样才能做到这一点？ Scrapy的DjangoItem类在这方面没有帮助,因为我仍然必须明确定义使用的启动URL.

换句话说,如何将当前使用的起始URL传递给parse_item()方法,以便我可以将它与适当的刮取Web链接一起保存到数据库中？有任何想法吗？提前致谢！

解决方法

默认情况下,您无法访问原始启动网址.

但是你可以覆盖make_requests_from_url方法并将开始网址放入meta.然后在解析中你可以从那里提取它(如果你在后面的请求中产生了解析方法,不要忘记在它们中转发那个开始网址).

我没有使用CrawlSpider,也许Maxim建议你可以使用它,但请记住,response.url在可能的重定向后有url.

这是我将如何做的一个例子,但它只是一个例子(取自scrapy教程)并且未经过测试：

class MySpider(CrawlSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    rules = (
        # Extract links matching 'category.PHP' (but not matching 'subsection.PHP')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('category\.PHP',),deny=('subsection\.PHP',))),# Extract links matching 'item.PHP' and parse them with the spider's method parse_item
        Rule(SgmlLinkExtractor(allow=('item\.PHP',)),callback='parse_item'),)

    def parse(self,response): # When writing crawl spider rules,avoid using parse as callback,since the CrawlSpider uses the parse method itself to implement its logic. So if you override the parse method,the crawl spider will no longer work.
        for request_or_item in CrawlSpider.parse(self,response):
            if isinstance(request_or_item,Request):
                request_or_item = request_or_item.replace(Meta = {'start_url': response.Meta['start_url']})
            yield request_or_item

    def make_requests_from_url(self,url):
        """A method that receives a URL and returns a Request object (or a list of Request objects) to scrape. 
        This method is used to construct the initial requests in the start_requests() method,and is typically used to convert urls to requests.
        """
        return Request(url,dont_filter=True,Meta = {'start_url': url})

    def parse_item(self,response):
        self.log('Hi,this is an item page! %s' % response.url)

        hxs = HtmlXPathSelector(response)
        item = Item()
        item['id'] = hxs.select('//td[@id="item_id"]/text()').re(r'ID: (\d+)')
        item['name'] = hxs.select('//td[@id="item_name"]/text()').extract()
        item['description'] = hxs.select('//td[@id="item_description"]/text()').extract()
        item['start_url'] = response.Meta['start_url']
        return item

问你是否有任何问题.顺便说一句,使用PyDev的“转到定义”功能,您可以看到scrapy源并了解Request,make_requests_from_url和其他类和方法所期望的参数.进入代码可以帮助并节省您的时间,尽管一开始可能看起来很困难.

如何访问Scrapy CrawlSpider中的特定start_url？的更多相关文章

HTML5 播放 RTSP 视频的实例代码

目前大多数网络摄像头都是通过 RTSP 协议传输视频流的，但是 HTML 并不标准支持 RTSP 流。本文重点给大家介绍HTML5 播放 RTSP 视频的实例代码，需要的朋友参考下吧
浅析HTML5中的download属性使用

这篇文章主要介绍了浅析HTML5中的download属性使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
HTML5 Blob 实现文件下载功能的示例代码

这篇文章主要介绍了HTML5 Blob 实现文件下载功能的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
web字体加载方案优化小结

这篇文章主要介绍了web字体加载方案优化小结，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
关于h5中的fetch方法解读(小结)

这篇文章主要介绍了关于h5中的fetch方法解读(小结),fetch身为H5中的一个新对象，他的诞生，是为了取代ajax的存在而出现,有兴趣的可以了解一下
ios – 在WKWebView中获取链接URL

我想在WKWebView中获取tapped链接的url.链接采用自定义格式,可触发应用中的某些操作.例如HTTP：//我的网站/帮助#深层链接对讲.我这样使用KVO：这在第一次点击链接时效果很好.但是,如果我连续两次点击相同的链接,它将不报告链接点击.是否有解决方法来解决这个问题,以便我可以检测每个点击并获取链接？任何关于这个的指针都会很棒！解决方法像这样更改addobserver在observeValue函数中,您可以获得两个值
ios – 加载空白页面的SFSafariViewController

我正在使用SFSafariViewController在我的iOS应用程序中打开一个URL..它在iOS9上完美运行但在将我的设备更新到iOS10后,它只是在地址栏中加载了一个没有URL的空白页面.甚至safariViewController(控制器：SFSafariViewController,didCompleteInitialLoaddidLoadSuccessfully：Bool)在控制器
ios – 应用更新,NSURL和文档目录

我应该存储相对图像网址或字符串来表示这些资源的位置,还是应该可以存储最终成为绝对网址的内容？
ios – 使用NSURLSession获取JSON数据

我试图从谷歌距离api使用NSURLSession获取数据,但如下所示,当我打印响应和数据时,我得到的结果为NULL.可能是什么问题？
ios – 从Facebook这样的任何URL获取特定图像

我的问题看起来可能与其他问题类似,但事实并非如此.(据我所知).我无法理解如何从任何URL获取特定图像像Facebook一样,我无法向您显示屏幕截图,因为我没有真正的设备.但我可以告诉你Skype的屏幕截图来自MAC.任何帮助将不胜感激.thanks.编辑：我使用这个link获得了favicon,但它非常小我想要更大的尺寸.解决方法最后,我得到了答案.这可能对你有帮助,这就是为什么我发布这个答案.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教