В пандах у меня есть два кадра данных. Один из которых содержит Праздники определенной страны от http://www.timeanddate.com/holidays/austria и еще один, содержащий столбец даты. Я хочу рассчитать #days
после праздника.python time lags holidays
def compute_date_diff(x, y):
difference = y - x
differenceAsNumber = (difference/ np.timedelta64(1, 'D'))
return differenceAsNumber.astype(int)
for index, row in holidays.iterrows():
secondDF[row['name']+ '_daysAfter'] = secondDF.dateColumn.apply(compute_date_diff, args=(row.day,))
Однако эта
- вычисляет неправильную разницу, например,
>
чем год в случае, еслиholidays
содержит данные более года. - довольно медленно.
Как я мог исправить производительность изъян и увеличение? Существует ли параллель? Или как насчет http://pandas.pydata.org/pandas-docs/stable/timeseries.html#holidays-holiday-calendars Поскольку я новичок в pandas, я не уверен, как получить текущую дату/индекс объекта даты во время итерации в приложении. Насколько я знаю, я не могу зацикливаться наоборот. за все мои строки в secondDF
, как это было невозможно для меня, чтобы генерировать полнометражных колонки в то время как итерация через apply