В основном я импортировал csv около 17000 строк в базу данных pandas. Существует столбец даты, который был импортирован как int64
, потому что качество данных очень плохое. Примеры дат включают 11969
, 12132001
, 1022013
и т. Д. Поэтому я считаю, что я хочу получить только последние 4 числа из столбца даты.Python - Получить и заменить на основе регулярного выражения
Так код, который я использовал это:
test_str = str(df['Date'])
flags = re.MULTILINE
p = r'\d{4}$'
result = re.findall(p, test_str, flags)
Когда я print(result)
только 60 из 17000 возвращается значение. Я предполагаю, что это только оценивает уникальность, но после долгого боя с поисковой системой я не могу понять это. Любые идеи о том, как я могу обойти это?
Большое спасибо - Ваши альтернативные способы работы. И да, я знаю с образцом/небольшим набором данных, с которым работал мой регулярный метод. Его просто я получил только 60 из 17000 строк. Как вы сказали, я должен делать что-то странное с пандами. Должно заглянуть в это немного больше. – Brrrr