scrapy爬虫遇到js动态渲染问题

2023-03-31 原文

一、传统爬虫的问题

scrapy爬虫与传统爬虫一样，都是通过访问服务器端的网页，获取网页内容，最终都是通过对于网页内容的分析来获取数据，这样的弊端就在于他更适用于静态网页的爬取，而面对js渲染的动态网页就有点力不从心了，因为通过js渲染出来的动态网页的内容与网页文件内容是不一样的。

1.实际案例

腾讯招聘：https://careers.tencent.com/search.html

在这里插入图片描述

这个网站第一眼看过去是非常中规中矩的，结构也很鲜明，感觉是很好爬的样子，但是当你查看他的网页文件的时候，就会发现:

在这里插入图片描述

网页文件并没有太多的内容，全部是引用了js做的动态渲染，所有数据都在js中间，这就使我们无法对于网页的结构进行分析来进行爬取数据

那我们如何，获取到它实际显示的页面，然后对页面内容进行分析呢?

二、scrapy解决动态网页渲染问题的策略

目前scrapy解决动态网页渲染问题的主要有以下三种的解决方法：

seleium chrome

就是传统的结合浏览器进行渲染，优点就在于，浏览器能访问什么，他就能够获取到什么，缺点也很明显，因为它需要配合浏览器，所以它的速度很慢。

selenium phantomjs

与上一种的方式一样，但是不需要开浏览器。

scrapy-splash（推荐）

而scrapy-splash与以上两种方法对比，它更加快速轻量，由于，他是基于twisted和qt开发的轻量浏览器引擎，并提供了http api，速度更快，最重要的是他能够与scrapy非常完美的融合。

三、安装使用scrapy-splash

1.安装Docker

由于ScrapySplash要在docker里使用，我们先安装docker,过程比较复杂痛苦，略。

在安装的过程中有一个非常严峻的问题，那就是docker，需要开启win10 hyper虚拟服务，这与你在电脑上安装的VM是相冲突的,所以在使用docker，的时候无法使用VM虚拟机，而且每次切换时都需要重启电脑，目前这个问题暂时无法解决。

2.安装splash镜像

docker run -p 8050:8050 scrapinghub/splash

这个过程异常异常的慢，而且必须是国内的镜像，才能够下载下来。

所以我配置了两个国内的下载IP，一个网易的，一个阿里云的。

{
  "registry-mirrors": [
    "https://registry.docker-cn.com",
    "http://hub-mirror.c.163.com",
    "https://docker.mirrors.ustc.edu.cn"
  ],
  "insecure-registries": [],
  "debug": true,
  "experimental": false
}

下载完成过后，打开浏览器访问:http://localhost:8050/

在这里插入图片描述

这就表示已经安装完成了，命令行不能关闭哦

3.安装scrapy-splash

pip install scrapy-splash

python没有花里胡哨的安装过程。

四、项目实践

1.项目的创建和配置过程略

2.settings.py的配置

PIDER_MIDDLEWARES = {
   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,  # 不配置查不到信息
}

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = 'httpcache'

SPLASH_URL = "http://localhost:8050/"  # 自己安装的docker里的splash位置
# DUPEFILTER_CLASS = "scrapy_splash.SplashAwareDupeFilter"
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

3.爬虫的设计

    def start_requests(self):
        splah_args = {
            "lua_source": """
            function main(splash, args)
              assert(splash:go(args.url))
              assert(splash:wait(0.5))
              return {
                html = splash:html(),
                png = splash:png(),
                har = splash:har(),
              }
            end
            """
        }
        headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/72.0.3626.109 Safari/537.36',
        }
        yield SplashRequest(url=self.start_url, callback=self.parse, args=splah_args,
                            headers=headers)

这里我们编写一个初始化的start_requests方法，这个方法是继承父类的。

注意我们最后的请求方式SplashRequest,我们不再使用Request,而是使用scrapy-splash的请求方式,这里也体现了它与scope框架的完美融合。

至于里面的参数，就没有必要介绍了，其中要注意两个参数args和callback。

args是配置信息可以参照http://localhost:8050/中的
callback下一级处理方法的函数名，最后的方法一定要指向self.parse，这是scrapy迭代爬取的灵魂。

4.解析打印数据

    def parse(self, response):
        print(response.text)
        job_boxs = response.xpath('.//div[@class="recruit-list"]')
        for job_box in job_boxs:
            title = job_box.xpath('.//a/h4/text()').get()
            print(title)

这是通过渲染以后的网页数据

在这里插入图片描述

这里我们直接获取职位的标题

在这里插入图片描述

这就表明scrapy爬虫应对动态网页渲染问题已经解决，也就意味着scrapy能够处理大部分的网页，并可以应对一些图形验证问题

五、总结与思考

之后遇到的问题，当我们获取到了，职位列表过后，当我们需要访问详情页的时候，我们就必须获取详情页的链接，但是腾讯非常的聪明，并没有采用超链接的方式进行跳转，而是通过用户点击事件，然后通过js跳转，这就造成了我们无法获取详情页的链接。

当我沮丧的时候，我认真的检查了浏览器与服务器的数据交换中，其实它的数据也是通过js进行后台请求得到的，所以通过对大量的数据进行采集，最终找到了他的数据接口（贼开心！！！）

在这里插入图片描述

这时候我们就要做取舍了，我们想要的是所有数据，并不是渲染出来的网页，与解析网页内容相比，直接通过它的接口获取json数据，更加快捷方便，速度更快，所以我们就要做出取舍，在这里直接获取接口数据将更好，错误率会更低，速度也会更快。

其实大部分的动态网页的渲染，都存在与数据端进行请求交互数据，当然也存在一些，直接把数据存在js中间，然后再通过js渲染到网页上，这时候scrapy-splash就可以发挥价值了,尤其是在一些验证码，图形验证方面更加突出。随着前端技术的不断发展，前端对数据的控制更加灵活多样，这也要求爬虫的逻辑也需要不断的跟进，也要求使用新的工具，新的技术，在不断的探索实践中跟上时代的步伐。

到此这篇关于scrapy爬虫遇到js动态渲染问题的文章就介绍到这了,更多相关scrapy爬虫js动态渲染内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

scrapy爬虫遇到js动态渲染问题的更多相关文章

Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
node.js爬虫框架node-crawler初体验

这篇文章主要介绍了node.js爬虫框架node-crawler的相关资料，帮助大家利用node.js进行爬虫，感兴趣的朋友可以了解下
nodeJs爬虫的技术点总结

本篇文章给大家总结了关于nodeJs爬虫的技术点的相关知识，对爬虫有兴趣的朋友可以跟着学习参考下。
python 基于aiohttp的异步爬虫实战详解

这篇文章主要为大家介绍了python 基于aiohttp的异步爬虫实战详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
Python爬虫采集Tripadvisor数据案例实现

这篇文章主要为大家介绍了Python爬虫采集Tripadvisor数据案例实现，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
node.js实现博客小爬虫的实例代码

这篇文章通过实例代码来给大家介绍如何利用node.js实现博客小爬虫，有需要的朋友们可以直接运用文中给出的实例代码来进行实践学习，感兴趣的朋友们下面来一起看看吧。
python爬虫之requests库使用代理方式

这篇文章主要介绍了python爬虫之requests库使用代理方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Python爬虫学习之requests的使用教程

requests库是一个常用的用于 http 请求的模块，它使用 python 语言编写，可以方便的对网页进行爬取。本文将通过示例详细讲讲requests库的使用，需要的可以参考一下
Node.js 实现简单小说爬虫实例

现在爬虫在很多web项目中都有应用，这篇文章主要介绍了Node.js 实现简单小说爬虫实例，有兴趣的可以了解一下。

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教