apache-spark-sql

HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

为了实现#2，我应该尝试通过对两个数据帧的键进行共同分区，尽可能减少混洗。为了改进我的加入，我首先对event_type进行过滤，以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上，还包括一个partitionBy，以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时，使用repartition()的初

regexp_extract返回不期望的结果

测试代码：返回：正如你从上面看到的，标题中的2个给出了错误的结果。1013BriarLane是正确的，因为它没有返回任何内容，因为1013不是年份这是我的代码：在标题子字符串中获取正确的年份

apache-spark-sql 首页 apache-spark-sql

HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

regexp_extract返回不期望的结果

apache-spark-sql

首页

apache-spark-sql