У меня есть следующие Dataframe
:Python Панды Определение дублируется строк с дополнительной колонке
df
Out[23]:
PplNum RoomNum Value
0 1 0 265
1 1 12 170
2 2 0 297
3 2 12 85
4 2 0 41
5 2 12 144
Вообще PplNum
и RoomNum
генерируется, как это, и он всегда будет иметь следующий формат:
for ppl in [1,2,2]:
for room in [0, 12]:
print(ppl, room)
1 0
1 12
2 0
2 12
2 0
2 12
Но теперь то, что я хотел бы достичь, - отметить эти дубликаты комбинаций PplNum
и RoomNum
, чтобы я мог знать, какие комбинации являются первым вхождением, которые являются вторыми o ccurrence и так далее ... Так что ожидаемый выход Dataframe будет выглядеть следующим образом:
PplNum RoomNum Value C
0 1 0 265 1
1 1 12 170 1
2 2 0 297 1
3 2 12 85 1
4 2 0 41 2
5 2 12 144 2
WOW, здорово решить только с одной строки кода! – 2342G456DI8
@MaxU, Thx для вашего asnwer, не могли бы вы объяснить, как это работает, 'groupby' и' cumcount'? –
@ J.J.Marko, я добавил ссылки на соответствующие документы и примеры использования 'groupby' - я думаю, что это лучшее объяснение – MaxU