我们目前正在进行从CDH(Cloudera分布式Hadoop)迁移到CDP(Cloudera数据平台)wrt spark(目前版本为1.6)的可行性研究。

当检查文档时,我们知道1.6不受支持,我们需要将其重构为2.4,并给出了手动执行的步骤

https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migra...

但我们计划在CDP中迁移到Spark 3.x

https://blog.cloudera.com/upgrade-journey-the-path-from-cdh-to-cdp-private-cloud/

作为升级前步骤的一部分,我们需要将Spark 1.x作业转换为2.4.5。

阶段2:预升级使用此处的备份步骤列表备份现有群集确认是否满足所有先决条件。确保满足所有未完成的依赖项。将Spark 1.x作业转换为Spark 2.4.5。测试和验证作业,以确保执行和测试了所有必需的代码更改。我的疑问是:

如果从cdh迁移到cdp时,迁移是从Spark 1.x-3.x进行的,那么在转换Spark 1x-2x和2x到3之间是否必须有一个步骤?如果是,那么1x-2x的重构是自动的,或者应该按照cloudera中给出的步骤手动完成

https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html

如果没有,我们可以在从CDH迁移到CDP时直接从spark 1x-3x进行重构吗?请提供帮助。

提前感谢。

尝试在现有cloudera文档中寻找解决方案,但一无所获,在将Spark工作负载迁移到CDP方面,只有两个选项

Spark 1.6到Spark 2.4重构由于CDP不支持Spark 1.6,因此需要将Spark工作负载从CDH或HDP上的Spark 1.6重构到CDP上的Spar 2.4。

Spark 2.3到Spark 2.4重构由于CDP不支持Spark 2.3,因此需要将Spark工作负载从CDH或HDP上的Spark 2.3重构到CDP上的Spar 2.4。

火花2.4至3.x

但是,如果我们有Spark 1.6,那么将其移动到2.4,然后移动到3将是双倍的努力

CDH(Cloudera分布式Hadoop)到CDP(Cloudera数据平台)迁移Spark 1x-3x查询的更多相关文章

  1. 解决Laravel 不能创建 migration 的问题

    今天小编就为大家分享一篇解决Laravel 不能创建 migration 的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

  2. CDH(Cloudera分布式Hadoop)到CDP(Cloudera数据平台)迁移Spark 1x-3x查询

    我们目前正在进行从CDH迁移到CDPwrtspark的可行性研究。将Spark1.x作业转换为Spark2.4.5。如果是,那么1x-2x的重构是自动的,或者应该按照cloudera中给出的步骤手动完成https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html如果没有,我们可以在从CDH迁移到CDP时直接从sp

  3. regexp_extract返回不期望的结果

    测试代码:返回:正如你从上面看到的,标题中的2个给出了错误的结果。1013BriarLane是正确的,因为它没有返回任何内容,因为1013不是年份这是我的代码:在标题子字符串中获取正确的年份

  4. 如何将连续列(0-1)分组为相等大小?斯卡拉火花

    我有一个数据帧列,希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的,因此大多数值都在0.90和1之间。铲斗10:所有1铲斗2-9:任何值>;0和<;1铲斗1:所有0例子:continous_number_colBucket0.00120.95711001这应该是当我groupBy时的样子。

  5. 当我在windows10上安装spark并在命令提示符下运行sparkshell时,它显示闪烁

    当我在windows10上安装spark并在命令提示符下运行sparkshell时,它显示闪烁,当按下控件c时,它会显示终止批处理作业(Y/N),尝试了许多方法但都不起作用,请参阅官方spark文档](https://i.stack.imgur.com/S1NrS.png)

  6. 在Spark Web UI中检查FAIR调度程序的池统计信息的位置

    我看到我的Spark应用程序正在使用FAIR调度程序:但我无法确认它是否使用了我设置的两个池。下面是我在PySpark中实现的线程函数我以为“阶段”菜单应该显示游泳池信息,但我没有看到。这是否意味着游泳池设置不正确,还是我看错了地方?我在EMR6.9.0之上使用PySpark3.3.0

  7. HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

    为了实现#2,我应该尝试通过对两个数据帧的键进行共同分区,尽可能减少混洗。为了改进我的加入,我首先对event_type进行过滤,以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上,还包括一个partitionBy,以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时,使用repartition()的初

随机推荐

  1. 如何扩展ATmega324PB微控制器的以下宏寄存器?

    我目前正在学习嵌入式,我有以下练习:展开以下宏寄存器:如果有人解决了这个问题,我将不胜感激,以便将来参考

  2. Python将ONNX运行时设置为返回张量而不是numpy数组

    在python中,我正在加载预定义的模型:然后我加载一些数据并运行它:到目前为止,它仍在正常工作,但我希望它默认返回Tensor列表,而不是numpy数组。我对ONNX和PyTorch都是新手,我觉得这是我在这里缺少的基本内容。这将使转换中的一些开销相同。

  3. 在macOS上的终端中使用Shell查找文件中的单词

    我有一个文本文件,其中有一行:我需要找到ID并将其提取到变量中。我想出了一个RexEx模式:但它似乎对我尝试过的任何东西都不起作用:grep、sed——不管怎样。我的一个尝试是:我为这样一个看似愚蠢的问题感到抱歉,但我在互联网上找不到任何东西:我在SO和SE上读了几十个类似的问题,并在谷歌上搜索了几个教程,但仍然无法找到答案。欢迎提供任何指导!

  4. react-chartjs-2甜甜圈图中只有标题未更新

    我正在使用react-chartjs-2在我的网站中实现甜甜圈图。下面是我用来呈现图表的代码。我将甜甜圈图的详细信息从父组件传递到子组件,所有道具都正确传递。当我在beforeDraw函数外部记录props.title时,它会记录正确的值,但当我在beforeDraw函数内部记录props.title时,它将记录标题的前一个值,从而呈现标题的前值。我在这里做错了什么?

  5. 如何在tkinter中使用Python生成器函数?

    生成器函数承诺使某些代码更易于编写。但我并不总是知道如何使用它们。假设我有一个斐波那契生成器函数fib(),我想要一个显示第一个结果的tkinter应用程序。当我点击“下一步”按钮时,它会显示第二个数字,依此类推。我如何构建应用程序来实现这一点?我可能需要在线程中运行生成器。但如何将其连接回GUI?

  6. 如何为每次提交将存储库历史记录拆分为一行?

    我正在尝试获取存储库的历史记录,但结果仅以单行文本的形式返回给我。

  7. 尝试在颤振项目上初始化Firebase时出错

    当尝试在我的颤振项目上初始化firebase时,我收到了这个错误有人知道我能做什么吗?应用程序分级Gradle插件Gradle项目颤振相关性我已经将firebase设置为Google文档已经在另一个模拟器上尝试过,已经尝试过创建一个全新的模拟器,已经在不同的设备上尝试过了,已经尝试了特定版本的firebase,已经尝试添加但没有任何效果,已经在youtube上看到了关于它的每一个视频,该应用程序在android和iOS两个平台上都抛出了这个错误

  8. 在unix中基于当前日期添加新列

    我试图在unix中基于时间戳列在最后一个单元格中添加一个状态列。我不确定如何继续。

  9. 麦克斯·蒙特利。我一直得到UncaughtReferenceError:当我在终端中写入node-v时,节点未定义

    如果这是您应该知道的,请确认:我已将所有shell更改为默认为zsh。当我在终端中写入node-v时,我一直收到“UncaughtReferenceError:nodeisnotdefined”。但它显示节点已安装。我是个新手,在这方面经验不足。

  10. 如何在前端单击按钮时调用后端中的函数?

    那么如何在后端添加一个新的端点,点击按钮调用这个函数。

返回
顶部