下面是一个示例数据帧:
import pandas as pd sample_dframe = pd.DataFrame.from_dict( { "id": [123, 123, 123, 123, 123, 123, 123, 123, 123, 123, 456, 456, 456, 456, 456, 456, 456, 456, 456, 456, 456, 456], "V1": [2552, 813, 496, 401, 4078, 952, 7279, 544, 450,548, 433,4696, 244,9735, 4263,642, 255,2813, 496,401, 4078952, 7279544], "V2": [3434, 133, 424, 491, 8217, 915, 7179, 5414, 450, 548, 433, 4696, 244, 9735, 4263, 642, 255, 2813, 496, 401, 4952, 4453], "V3": [382,161, 7237, 7503, 561, 6801, 1072, 9660, 62107, 6233, 5403, 3745, 8613, 6302, 557, 4256, 9874, 3013, 9352, 4522, 3232, 58830], "V4": [32628, 4471, 4781, 1497, 45104, 8657, 81074, 1091, 370835, 2058, 4447, 7376, 302237, 6833, 48348, 3545, 4263,642, 255,2813, 4088920, 6323521] } )
数据帧如下所示:
上面的示例形状是(22, 5)
,有列id
、V1..V4
。我需要将其转换为多索引数据帧(作为时间序列),其中对于给定的id
,我需要将每个V1
中的5个值(时间步长)分组V4
对于给定的id
。
即,它应该给我一个形状为(2, 4, 5)
的框架,因为有两个唯一的id
值。
提前感谢。