Я работаю над python (pandas
конкретно), чтобы проанализировать набор данных. (Python слишком крут, сила открытого источника потрясающая). У меня возникают проблемы с определенной частью моего набора данных.Как объединить повторяющиеся метки времени с пандами?
У меня есть следующий набор данных,
time,contract,ticker,expiry,strike,quote,price,volume
08:01:08,C,PXA,20100101,4000,A,57.8,60
08:01:11,C,PXA,20100101,4000,A,58.4,60
08:01:12,C,PXA,20100101,4000,A,58,60
08:01:16,C,PXA,20100101,4000,A,58.4,60
08:01:16,C,PXA,20100101,4000,A,58,60
08:01:21,C,PXA,20100101,4000,A,58.4,60
08:01:21,C,PXA,20100101,4000,A,58,60
и это продолжается ...
Я использую панда, чтобы загрузить данные. После этого я хотел бы иметь возможность сделать следующее: взять средневзвешенный объем времени, когда есть дубликаты.
т. Е. Поскольку есть два запроса в момент времени 08:01:16, я хотел бы рассчитать среднюю цену, основанную на объеме, который был бы (58,4 * 60 + 58 * 60)/(60 + 60) и средним объема на колонке объема, которая была бы (60 + 60)/2.
Как вы читаете данные? Панды обычно не принимают дубликаты в индексе. – eumiro
Я использовал pds.read_csv, у него не было проблем с чтением данных. Что он сделал, так это то, что в моей первой колонке была дата и так далее. – Andrew