partitioning

HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

为了实现#2,我应该尝试通过对两个数据帧的键进行共同分区,尽可能减少混洗。为了改进我的加入,我首先对event_type进行过滤,以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上,还包括一个partitionBy,以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时,使用repartition()的初