深入理解Node.js中的Worker线程

2023-04-14 原文

概述

多年以来，Node.js都不是实现高 CPU 密集型应用的最佳选择，这主要就是因为JavaScript的单线程。作为对此问题的解决方案，Node.jsv10.5.0 通过worker_threads模块引入了实验性的 “worker 线程” 概念，并从 Node.js v12 LTS 起成为一个稳定功能。本文将解释其如何工作，以及如何使用 Worker 线程获得最佳性能。

Node.js 中 CPU 密集型应用的历史

在 worker 线程之前，Node.js 中有多种方式执行 CPU 密集型应用。其中的一些为：

使用child_process模块并在一个子进程中运行 CPU 密集型代码
使用cluster模块，在多个进程中运行多个 CPU 密集型操作
使用诸如 Microsoft 的Napa.js这样的第三方模块

但是受限于性能、额外引入的复杂性、占有率低、薄弱的文档化等，这些解决方案无一被广泛采用。

为 CPU 密集型操作使用 worker 线程

尽管对于JavaScript的并发性问题来说，worker_threads是一个优雅的解决方案，但其并未给 JavaScript 本身带来多线程特性。相反，worker_threads通过运行应用使用多个相互隔离的 JavaScript workers 来实现并发，而 workers 和父 worker 之间的通信由 Node 提供。听懵了吗？ ‍♂️

在 Node.js 中，每一个 worker 将拥有其自己的 V8 实例及事件循环（Event Loop）。但和child_process不同的是，workers 不共享内存。

以上概念会在后面解释。我们首先来大致看一眼如何使用 Worker 线程。一个原生的用例看起来是这样的：

// worker-simple.js

const {Worker, isMainThread, parentPort, workerData} = require('worker_threads');
if (isMainThread) {
 const worker = new Worker(__filename, {workerData: {num: 5}});
 worker.once('message', (result) => {
 console.log('square of 5 is :', result);
 })
} else {
 parentPort.postMessage(workerData.num * workerData.num)
}

在上例中，我们向每个单独的 workder 中传入了一个数字以计算其平方值。在计算之后，子 worker 将结果发送回主 worker 线程。尽管看上去简单，但 Node.js 新手可能还是会有点困惑。

Worker 线程是如何工作的？

JavaScript 语言没有多线程特性。因此，Node.js 的 Worker 线程以一种异于许多其它高级语言传统多线程的方式行事。

在 Node.js 中，一个 worker 的职责就是去执行一段父 worker 提供的代码（worker 脚本）。这段 worker 脚本将会在隔绝于其它 workers 的环境中运行，并能够在其自身和父 worker 间传递消息。worker 脚本既可以是一个独立的文件，也可以是一段可被eval解析的文本格式的脚本。在我们的例子中，我们将__filename作为 worker 脚本，因为父 worker 和子 worker 代码都在同一个脚本文件中，由isMainThread属性决定其角色。

每个 worker 通过message channel连接到其父 worker。子 worker 可以使用parentPort.postMessage()函数向消息通道中写入信息，父 worker 则通过调用 worker 实例上的worker.postMessage()函数向消息通道中写入信息。看一下图 1:

一个 Message Channel 就是一个简单的通信渠道，其两端被称作 ‘ports'。在 JavaScript/NodeJS 术语中，一个 Message Channel 的两端就被叫做port1和port2

Node.js 的 workers 是如何并行的？

现在关键的问题来了，JavaScript 并不直接提供并发，那么两个 Node.js workers 要如何并行呢？答案就是V8 isolate。

一个V8 isolate就是 chrome V8 runtime 的一个单独实例，包含自有的 JS 堆和一个微任务队列。这允许了每个 Node.js worker 完全隔离于其它 workers 地运行其 JavaScript 代码。其缺点在于 worker 无法直接访问其它 workers 的堆数据了。

扩展阅读：JS在浏览器和Node下是如何工作的？

由此，每个 worker 将拥有其自己的一份独立于父 worker 和其它 workers 的 libuv 事件循环的拷贝。

跨越 JS/C 的边界

实例化一个新 worker、提供和父级/同级 JS 脚本的通信，都是由 C 实现版本的 worker 完成的。在成文时，该实现为worker.cc(https://github.com/nodejs/node/blob/921493e228/src/node_worker.cc)。

Worker 的实现通过worker_threads模块被暴露为用户级的 JavaScript 脚本。该 JS 实现被分割为两个脚本，我将之称为：

初始化脚本 worker.js— 负责初始化 worker 实例，并建立初次父子 worker 通信，以确保从父 worker 传递 worker 元数据至子 worker。(https://github.com/nodejs/node/blob/921493e228/lib/internal/worker.js)
执行脚本 worker_thread.js— 根据用户提供的workerData数据和其它父 worker 提供的元数据执行用户的 worker JS 脚本。(https://github.com/nodejs/node/blob/921493e228/lib/internal/main/worker_thread.js)

图 2 以更清晰的方式解释了这个过程：

基于上述，我们可以将 worker 设置过程划分为两个阶段：

worker 初始化
运行 worker

来看看每个阶段都发生了什么吧：

初始化步骤

1.用户级脚本通过使用worker_threads创建一个 worker 实例

2.Node 的父 worker 初始化脚本调用 C 并创建一个空的 worker 对象。此时，被创建的 worker 还只是个未被启动的简单的 C 对象

3.当 C worker 对象被创建后，其生成一个线程 ID 并赋值给自身

4.同时，一个空的初始化消息通道（让我们称之为IMC）被父 worker 创建。图 2 中灰色的 “Initialisation Message Channel” 部分展示了这点

5.一个公开的 JS 消息通道（称其为PMC）被 worker 初始化脚本创建。该通道被用户级 JS 使用以在父子 worker 之间传递消息。图 1 中主要描述了这部分，也在图 2 中被标为了红色。

6.Node 父 worker 初始化脚本调用 C 并将需要被发送到 worker 执行脚本中的初始元数据写入IMC。

什么是初始元数据？即执行脚本需要了解以启动 worker 的数据，包括脚本名称、worker 数据、PMC 的port2，以及其它一些信息。

按我们的例子来说，初始化元数据如：

:phone: 嘿！worker 执行脚本，请你用{num: 5}这样的 worker 数据运行一下worker-simple.js好吗？也请你把 PMC 的port2传递给它，这样 worker 就能从 PMC 读取数据啦。

下面的小片段展示了初始化数据如何被写入 IMC：

const kPublicPort = Symbol('kPublicPort');
// ...

const { port1, port2 } = new MessageChannel();
this[kPublicPort] = port1;
this[kPublicPort].on('message', (message) => this.emit('message', message));
// ...

this[kPort].postMessage({
  type: 'loadScript',
  filename,
  doEval: !!options.eval,
  cwdCounter: cwdCounter || workerIo.sharedCwdCounter,
  workerData: options.workerData,
  publicPort: port2,
  // ...
  hasStdin: !!options.stdin
}, [port2]);

代码中的this[kPort]是初始化脚本中 IMC 的端点。尽管 worker 初始化脚本向 IMC 写入了数据，但 worker 执行脚本仍无法访问该数据。

运行步骤

此时，初始化已告一段落；接下来 worker 初始化脚本调用 C 并启动 worker 线程。

1.一个新的V8 isolate被创建并被分配给 worker。前面讲过，一个 “v8 isolate” 就是 chrome V8 runtime 的一个单独实例。这使得 worker 线程的执行上下文隔离于应用代码中的其它部分。

2.libuv被初始化。这确保了 worker 线程保有其自己独立于应用中的其它部分事件循环。

3.worker 执行脚本被执行，并且 worker 的事件循环被启动。

4.worker 执行脚本调用 C 并从 IMC 中读取初始化元数据。

5.worker 执行脚本执行对应文件或代码（在我们的例子中就是worker-simple.js），以作为一个 worker 开始运行。

看看下面的代码片段，worker 执行脚本是如何从 IMC 读取数据的：

const publicWorker = require('worker_threads');

// ...

port.on('message', (message) => {
  if (message.type === 'loadScript') {
    const {
      cwdCounter,
      filename,
      doEval,
      workerData,
      publicPort,
      manifestSrc,
      manifestURL,
      hasStdin
    } = message;

    // ...
    initializeCJSLoader();
    initializeESMLoader();
    
    publicWorker.parentPort = publicPort;
    publicWorker.workerData = workerData;

    // ...
    
    port.unref();
    port.postMessage({ type: UP_AND_RUNNING });
    if (doEval) {
      const { evalScript } = require('internal/process/execution');
      evalScript('[worker eval]', filename);
    } else {
      process.argv[1] = filename; // script filename
      require('module').runMain();
    }
  }
  // ...

是否注意到以上片段中的workerData和parentPort属性被指定给了publicWorker对象呢？后者是在 worker 执行脚本中由require('worker_threads')引入的。

这就是为何workerData和parentPort属性只在子 worker 线程内部可用，而在父 worker 的代码中不可用了。

如果尝试在父 worker 代码中访问这两个属性，都会返回null。

充分利用 worker 线程

现在我们理解 Node.js 的 worker 线程是如何工作的了，这的确能帮助我们在使用 Worker 线程时获得最佳性能。当编写比worker-simple.js更复杂的应用时，需要记住以下两个主要的关注点：

尽管 worker 线程比真正的进程更轻量，但如果频繁让 workers 陷入某些繁重的工作仍会开销巨大。

使用 worker 线程承担并行 I/O 操作仍是不划算的，因为 Node.js 原生的 I/O 机制是比从头启动一个 worker 线程去做同样的事更快的方式。

为了克服第 1 点的问题，我们需要实现“worker 线程池”。

worker 线程池

Node.js 的 worker 线程池是一组正在运行且能够被后续任务利用的 worker 线程。当一个新任务到来时，它可以通过父子消息通道被传递给一个可用的 worker。一旦完成了这个任务，子 worker 能将结果通过同样的消息通道回传给父 worker。

一旦实现得当，由于减少了创建新线程带来的额外开销，线程池可以显著改善性能。同样值得一提的是，因为可被有效运行的并行线程数总是受限于硬件，创建一堆数目巨大的线程同样难以奏效。

下图是对三台 Node.js 服务器的一个性能比较，它们都接收一个字符串并返回做了 12 轮加盐处理的一个 Bcrypt 哈希值。三台服务器分别是：

不用多线程
多线程，没有线程池
有 4 个线程的线程池

一眼就能看出，随着负载增长，使用一个线程池拥有显著小的开销。

但是，截止成文之时，线程池仍不是 Node.js 开箱即用的原生功能。因此，你还得依赖第三方实现或编写自己的 worker 池。

希望你现在能深入理解了 worker 线程如何工作，并能开始体验并利用 worker 线程编写你的 CPU 密集型应用。

以上就是深入理解Node.js中的Worker线程的详细内容，更多关于Node.js的资料请关注Devmax其它相关文章！

深入理解Node.js中的Worker线程的更多相关文章

利用Node实现HTML5离线存储的方法

这篇文章主要介绍了利用Node实现HTML5离线存储的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 使用带有NodeJs HTTPS的certificates.cer

我为IOS推送通知生成了一个.cer文件,我希望将它与NodeJSHTTPS模块一起使用.我发现HTTPS模块的唯一例子是使用.pem和.sfx文件,而不是.cer：有解决方案吗解决方法.cer文件可以使用两种不同的格式进行编码：PEM和DER.如果您的文件使用PEM格式编码,您可以像使用任何其他.pem文件一样使用它(有关详细信息,请参见Node.jsdocumentation)：如果您的文件使
iOS：核心图像和多线程应用程序

我试图以最有效的方式运行一些核心图像过滤器.试图避免内存警告和崩溃,这是我在渲染大图像时得到的.我正在看Apple的核心图像编程指南.关于多线程,它说：“每个线程必须创建自己的CIFilter对象.否则,你的应用程序可能会出现意外行为.”这是什么意思？我实际上是试图在后台线程上运行我的过滤器,所以我可以在主线程上运行HUD(见下文).这在coreImage的上下文中是否有意义？
ios – 多个NSPersistentStoreCoordinator实例可以连接到同一个底层SQLite持久性存储吗？

我读过的关于在多个线程上使用CoreData的所有内容都讨论了使用共享单个NSPersistentStoreCoordinator的多个NSManagedobjectContext实例.这是理解的,我已经使它在一个应用程序中工作,该应用程序在主线程上使用CoreData来支持UI,并且具有可能需要一段时间才能运行的后台获取操作.问题是NSPersistentStoreCoordinator会对基础
ios – XCode断点应该只挂起当前线程

我需要调试多线程错误.因此,为了获得生成崩溃的条件,我需要在代码中的特定点停止一个线程,并等待另一个线程到达第二个断点.我现在遇到的问题是,如果一个线程遇到断点,则所有其他线程都被挂起.有没有办法只停止一个线程,让其他线程运行,直到它们到达第二个断点？)其他更有趣的选择：当你点击第一个断点时,你可以进入控制台并写入这应该在该断点处暂停当前上下文中的线程一小时.然后在Xcode中恢复执行.
ios – 在后台线程中写入Realm后,主线程看不到更新的数据

>清除数据库.>进行API调用以获取新数据.>将从API检索到的数据写入后台线程中的数据库中.>从主线程上的数据库中读取数据并渲染UI.在步骤4中,数据应该是最新数据,但我们没有看到任何数据.解决方法具有runloops的线程上的Realm实例,例如主线程,updatetothelatestversionofthedataintheRealmfile,因为通知被发布到其线程的runloop.在后台
ios – NSURLConnectionLoader线程中的奇怪崩溃

我们开始看到我们的应用启动时发生的崩溃.我无法重现它,它只发生在少数用户身上.例外情况是：异常类型：EXC_BAD_ACCESS代码：KERN_INVALID_ADDRESS位于0x3250974659崩溃发生在名为com.apple.NSURLConnectionLoader的线程中在调用时–[NSBlockOperationmain]这是该线程的堆栈跟踪：非常感谢任何帮助,以了解可能导致这种崩
ios – 合并子上下文时的NSObjectInaccessbileExceptions

我尝试手动重现,但失败了.是否有其他可能发生这种情况的情况,是否有处理此类问题的提示？解决方法在创建子上下文时,您可以尝试使用以下行：
ios – 从后台线程调用UIKit时发出警告

你如何处理项目中的这个问题？
ios – 在SpriteKit中,touchesBegan在与SKScene更新方法相同的线程中运行吗？

在这里的Apple文档AdvancedSceneProcessing中,它描述了更新方法以及场景的呈现方式,但没有提到何时处理输入.目前尚不清楚它是否与渲染循环位于同一个线程中,或者它是否与它并发.如果我有一个对象,我从SKScene更新方法和touchesBegan方法(在这种情况下是SKSpriteNode)更新,我是否要担心同步对我的对象的两次访问？解决方法所以几天后没有回答我设置了一些实验

随机推荐

Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
nodejs模块学习之connect解析

这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
详解koa2学习中使用 async 、await、promise解决异步的问题

这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
CentOS 8.2服务器上安装最新版Node.js的方法

这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
node.js三个步骤实现一个服务器及Express包使用

这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用，文章通过新建一个文件展开全文内容，具有一定的参考价值，需要的小伙伴可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧