apache-spark

HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

为了实现#2,我应该尝试通过对两个数据帧的键进行共同分区,尽可能减少混洗。为了改进我的加入,我首先对event_type进行过滤,以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上,还包括一个partitionBy,以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时,使用repartition()的初

在Spark Web UI中检查FAIR调度程序的池统计信息的位置

我看到我的Spark应用程序正在使用FAIR调度程序:但我无法确认它是否使用了我设置的两个池。下面是我在PySpark中实现的线程函数我以为“阶段”菜单应该显示游泳池信息,但我没有看到。这是否意味着游泳池设置不正确,还是我看错了地方?我在EMR6.9.0之上使用PySpark3.3.0

如何将连续列(0-1)分组为相等大小?斯卡拉火花

我有一个数据帧列,希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的,因此大多数值都在0.90和1之间。铲斗10:所有1铲斗2-9:任何值>0和<1铲斗1:所有0例子:continous_number_colBucket0.00120.95711001这应该是当我groupBy时的样子。

regexp_extract返回不期望的结果

测试代码:返回:正如你从上面看到的,标题中的2个给出了错误的结果。1013BriarLane是正确的,因为它没有返回任何内容,因为1013不是年份这是我的代码:在标题子字符串中获取正确的年份

CDH(Cloudera分布式Hadoop)到CDP(Cloudera数据平台)迁移Spark 1x-3x查询

我们目前正在进行从CDH迁移到CDPwrtspark的可行性研究。将Spark1.x作业转换为Spark2.4.5。如果是,那么1x-2x的重构是自动的,或者应该按照cloudera中给出的步骤手动完成https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html如果没有,我们可以在从CDH迁移到CDP时直接从sp