apache-spark

HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

为了实现#2，我应该尝试通过对两个数据帧的键进行共同分区，尽可能减少混洗。为了改进我的加入，我首先对event_type进行过滤，以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上，还包括一个partitionBy，以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时，使用repartition()的初

在Spark Web UI中检查FAIR调度程序的池统计信息的位置

我看到我的Spark应用程序正在使用FAIR调度程序：但我无法确认它是否使用了我设置的两个池。下面是我在PySpark中实现的线程函数我以为“阶段”菜单应该显示游泳池信息，但我没有看到。这是否意味着游泳池设置不正确，还是我看错了地方？我在EMR6.9.0之上使用PySpark3.3.0

当我在windows10上安装spark并在命令提示符下运行sparkshell时，它显示闪烁

当我在windows10上安装spark并在命令提示符下运行sparkshell时，它显示闪烁，当按下控件c时，它会显示终止批处理作业（Y/N），尝试了许多方法但都不起作用，请参阅官方spark文档](https://i.stack.imgur.com/S1NrS.png)

如何将连续列（0-1）分组为相等大小？斯卡拉火花

我有一个数据帧列，希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的，因此大多数值都在0.90和1之间。铲斗10：所有1铲斗2-9：任何值&gt；0和&lt；1铲斗1：所有0例子：continous_number_colBucket0.00120.95711001这应该是当我groupBy时的样子。

regexp_extract返回不期望的结果

测试代码：返回：正如你从上面看到的，标题中的2个给出了错误的结果。1013BriarLane是正确的，因为它没有返回任何内容，因为1013不是年份这是我的代码：在标题子字符串中获取正确的年份

CDH（Cloudera分布式Hadoop）到CDP（Cloudera数据平台）迁移Spark 1x-3x查询

我们目前正在进行从CDH迁移到CDPwrtspark的可行性研究。将Spark1.x作业转换为Spark2.4.5。如果是，那么1x-2x的重构是自动的，或者应该按照cloudera中给出的步骤手动完成https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html如果没有，我们可以在从CDH迁移到CDP时直接从sp

apache-spark 首页 apache-spark