Предположим, что у меня есть CSV-файл, где в первом столбце прогноз даты, на втором месте выдаются дату, а в третьем столбце прогнозные значения:удалить строки с повторяющимися значениями в одном столбце и старше метки времени
forecast,issued,temp
2016021700,2016021702,5.3
2016021706,2016021702,6.3
2016021712,2016021702,8.6
2016021718,2016021702,5.1
2016021700,2016021703,5.4
2016021706,2016021703,6.4
В python я хотел бы автоматически удалить эти строки с той же датой прогноза и более старой датой. Выход должен быть в порядке даты/времени в соответствии с датой прогноза. Ожидаемый результат:
forecast,issued,temp
2016021700,2016021703,5.4
2016021706,2016021703,6.4
2016021712,2016021702,8.6
2016021718,2016021702,5.1
Любая помощь ценят ~
РЕШЕНИЕ: Я решил это с помощью панд:
import pandas as pd
df = pd.read_csv('data.csv')
df = df.drop_duplicates(subset='forecast',keep='last')
df = df.sort(['forecast'],ascending=True)
df.to_csv('out.csv',index=False)
Вы должны попробовать что-то самостоятельно и прийти сюда с кодом, если ему нужна помощь –
Спасибо за ваш комментарий. К сожалению, я действительно не знаю, с чего начать, и все мои усилия были слишком далеки от того, что я ожидал, и не достойны публиковать здесь. Если я подожду ближе, я поделюсь. На этот момент любое предложение поможет. – jazera