Puppeteer 爬取动态生成的网页实战

2023-04-06 原文

Puppeteer 相关介绍与安装不过多介绍，可通过以下链接进行学习

一、Puppeteer

开源地址

英文文档

中文社区

二、爬取动态网页

1. 需求

首先，了解下我们的需求: 爬取zoomcharts 文档中 Net Chart 目录下所有访问连接对应的页面，并保存到本地

2. 研究 ZoomCharts 文档页面结构

首先，我们得研究透 ZoomCharts 页面如何加载，以及左侧导航的 DOM 树结构，才好进行下一步操作

页面首次加载

页面首次加载，左侧导航第一个目录 Introduction 高亮，从控制台可看出，该元素增加了 active 类，同时 li[data-section="net-chart"] 节点下只有一个元素节点 a

点击 Net Chart 目录

点击 Net Chart 目录, Net Chart 目录高亮，下拉显示子目录，查看控制台，其元素节点增加 active 类，并增加 ul 子元素节点, 此时，第一个子目录节点也只有一个子元素节点 a

结论

不难发现, 左侧目录是动态生成的，而不是静态写死的，只有点击父级目录，其子目录才会生成显示，同时，父级目录元素上的 drop 类表明存在子级目录

3. 编写主程序

通过上面分析，得出大概流程如下

从上到下，遍历 Net Chart 目录的 DOM 树，当找到 a.drop 的元素节点，模拟鼠标点击事件 click ，生成子目录节点
找到 Net Chart 目录下所有的 a 链接，生成一个数组
遍历数组，访问每一个子目录页面，保存页面的 html 文件到本地

接下来实现每个具体流程

项目初始化

安装 puppeteer , rimraf (文件夹操作时需用到)

npm i -S puppeteer rimraf

新建 test.js 文件并引入

const puppeteer = require('puppeteer');
const chalk = require('chalk');
const path = require('path');
const https = require('https');
const fs = require('fs');
const rm = require('rimraf');

const settings = {
 headless: false
}

function resolve(dir, dir2 = '') {
	return path.posix.join(__dirname, './', dir, dir2);
}

async function main () {
 const browser = await puppeteer.launch(settings); // 创建一个Browser 对象
 try {
  const page = await browser.newPage(); // 使用 Browser 创建 Page 
  page.setDefaultNavigationTimeout(600000);
  // 监听 console 
  page.on('console', msg => {
   for (let i = 0; i < msg.args().length;   i) {
    console.log(`${i}: ${msg.args()[i]}`);
   }
  });
  
  <!-- main start -->
  // main 区域
  
  <!-- end start-->
  console.log('服务正常结束')
 } catch (error) {
  console.log('服务出现错误：')
  console.log(error)
 } finally {
  
 }
}

main()

接下来所有代码都在 main 区域内完成，完整代码可访问github代码仓库查看，下面仅列出每部分的思路

创建文件夹，用于保存爬取的文件

定义文件输出路径
根据路径生成文件夹
当文件夹已经存在，先删除，再新建

实现 Net Chart 目录下所有 a.drop 元素的点击事件

这部分涉及到DOM 操作, 只有在 page.evaluate() 中才能访问真实的 DOM 元素，同时，在 page.evaluate() 中不能直接调用外面定义的函数，可将函数传递进去，或将函数绑定到 window 对象上

await page.evaluate(async () => {
 const rootNode = document.querySelector('#menu > ul > li:nth-child(5) > ul > li:nth-child(5)');
 await window.walkDOM(rootNode)
})

此时，绑定到 window 对象上的 walkDOM 函数需要在 page.evaluateOnNewDocument 函数中定义才能生效

await page.evaluateOnNewDocument(() => {
 // 遍历DOM
 window.walkDOM = (node) => {
  if (node === null) {
   return
  }
  if (node.tagName === 'A' && node.className.indexOf('drop') > -1) {
   node.click() // 点击事件
  }
  node = node.firstElementChild
  while (node) {
   walkDOM(node)
   node = node.nextElementSibling
  }
 }
})

当Net Chart 目录下所有 a.drop 元素点击过后， Net Chart 目录下所有后代子目录都会加载生成，接下来操作就简单了

获取Net Chart 目录下所有 a 元素

通过 document.querySelectorAll() 查找到所有 a 元素，保存到数组
遍历数组，对数组每一项进行处理成 {href: '',text: ''} 对象
返回对象数组

遍历对象数组，访问每一个链接，下载其HTML文件

跳转每一个链接，下载需要的html到指定文件夹
当 HTML 中存在 img 时，下载所有图片

4. 总结

第一次使用Puppeteer也是磕磕绊绊，花费不少时间，期间也参考了不少文章，还需多多练习

代码仓库

代码仓库

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持Devmax。

Puppeteer 爬取动态生成的网页实战的更多相关文章

Node爬虫工具Puppeteer入门教程实践

Puppeteer是一个Node库，本文主要介绍了Node爬虫工具Puppeteer入门教程实践，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
php爬取天猫和淘宝商品数据

这篇文章主要为大家详细介绍了php爬取天猫和淘宝商品数据的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
python爬虫爬取股票的k线图

这篇文章主要介绍了python爬虫爬取股票的k线图，文章基于python的相关资料展开爬取股票的k线图的详细内容分享，具有一定的的参考价值，需要的小伙伴可以参考一下
node基于puppeteer模拟登录抓取页面的实现

本篇文章主要介绍了node基于puppeteer模拟登录抓取页面的实现，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
JSP动态网页开发技术概述

这篇文章主要介绍了JSP动态网页开发技术概述，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
python 爬取豆瓣电影短评并利用wordcloud生成词云图

这篇文章主要介绍了python 爬取豆瓣电影短评并利用wordcloud生成词云图，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
Python爬虫利用多线程爬取 LOL 高清壁纸

这篇文章主要介绍了Python爬虫利用多线程爬取 LOL 高清壁纸，通过网站爬取每一个英雄的所有皮肤图片，全部下载下来并保存到本地，下文爬取过程感兴趣的朋友可以参考一下
使用puppeteer破解极验的滑动验证码

这篇文章主要介绍了利用puppeteer破解极验的滑动验证功能，基本流程代码实现给大家介绍的非常详细,需要的朋友可以参考下
Python 多线程爬取案例

这篇文章主要介绍了Python 多线程爬取案例，爬虫属于I/O密集型的程序，所以使用多线程可以大大提高爬取效率，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
如何利用Node.js做简单的图片爬取

这篇文章主要介绍了如何利用Node.js做简单的图片爬取，爬虫的主要目的是收集互联网上公开的一些特定数据，本文介绍用于网络抓取的node.js包，完成一个简单的爬虫案例来爬取网页上图片并下载到本地

随机推荐

Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
nodejs模块学习之connect解析

这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
详解koa2学习中使用 async 、await、promise解决异步的问题

这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
CentOS 8.2服务器上安装最新版Node.js的方法

这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
node.js三个步骤实现一个服务器及Express包使用

这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用，文章通过新建一个文件展开全文内容，具有一定的参考价值，需要的小伙伴可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧