我有一个数据帧列,希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的,因此大多数值都在0.90和1之间。
铲斗10:所有1(此铲斗的大小将不同于2-9和1)铲斗2-9:任何值>;0和<;1(大小相等)铲斗1:所有0(此铲斗的大小将不同于2-9和10)
例子:
continous_number_col | Bucket |
---|---|
0.001 | 2 |
0.95 | 7 |
1 | 10 |
0 | 1 |
这应该是当我groupBy(“Bucket”)时的样子。Bucket 1和10的计数在这里并不重要,它们只是在自己的Bucket中
Bucket | Count | Values |
---|---|---|
1 | 1000 | 0 |
2 | 75 | 0.01 - 0.50 |
3 | 75 | 0.51 - 0.63 |
4 | 75 | 0.64 - 0.71 |
5 | 75 | 0.72 - 0.83 |
6 | 75 | 0.84 - 0.89 |
7 | 75 | 0.90 - 0.92 |
8 | 75 | 0.93 - 0.95 |
9 | 75 | 0.95 - 0.99 |
10 | 2000 | 1 |
希望这能为我的工作提供足够的背景。提前感谢。