我们目前正在进行从CDH(Cloudera分布式Hadoop)迁移到CDP(Cloudera数据平台)wrt spark(目前版本为1.6)的可行性研究。
当检查文档时,我们知道1.6不受支持,我们需要将其重构为2.4,并给出了手动执行的步骤
https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migra...
但我们计划在CDP中迁移到Spark 3.x
https://blog.cloudera.com/upgrade-journey-the-path-from-cdh-to-cdp-private-cloud/
作为升级前步骤的一部分,我们需要将Spark 1.x作业转换为2.4.5。
阶段2:预升级使用此处的备份步骤列表备份现有群集确认是否满足所有先决条件。确保满足所有未完成的依赖项。将Spark 1.x作业转换为Spark 2.4.5。测试和验证作业,以确保执行和测试了所有必需的代码更改。我的疑问是:
如果从cdh迁移到cdp时,迁移是从Spark 1.x-3.x进行的,那么在转换Spark 1x-2x和2x到3之间是否必须有一个步骤?如果是,那么1x-2x的重构是自动的,或者应该按照cloudera中给出的步骤手动完成
https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html
如果没有,我们可以在从CDH迁移到CDP时直接从spark 1x-3x进行重构吗?请提供帮助。
提前感谢。
尝试在现有cloudera文档中寻找解决方案,但一无所获,在将Spark工作负载迁移到CDP方面,只有两个选项
Spark 1.6到Spark 2.4重构由于CDP不支持Spark 1.6,因此需要将Spark工作负载从CDH或HDP上的Spark 1.6重构到CDP上的Spar 2.4。
Spark 2.3到Spark 2.4重构由于CDP不支持Spark 2.3,因此需要将Spark工作负载从CDH或HDP上的Spark 2.3重构到CDP上的Spar 2.4。
火花2.4至3.x
但是,如果我们有Spark 1.6,那么将其移动到2.4,然后移动到3将是双倍的努力