Выпуск Невозможно удалить специальный символ () из столбца dataframe.Pandas: Tricky Unicode Ошибка при преобразовании Dataframe
фон: У меня есть dataframe истории котировок акций, загруженных из Интернета в кодировке utf8 (link to CSV). Я попытался .apply()
на колонке, содержащей ежедневные объемы торгов, то есть, «Volume» Как скриншоте. ниже на рисунке, .apply()
использует лямбда сначала удалить все запятые из строки и затем конвертировать результат в int
. Когда это лямбда попадает полукокс .... ну, вы можете себе представить.
Обычно преобразование из str
в int
или float
в пандах - это cinch. Я не могу удалить проблему после нескольких часов поиска на SO и попытки решения конвертировать/удалять юникоды.
В конечном счете, я хочу, чтобы функция удаляла ВСЕ специальные символы/юникоды из строк или просто преобразовывала их в эквивалент utf8 и создавала логическую маску, чтобы я мог избежать этой проблемы в будущем.
Line 2093 в CSV есть мусор в нем. Исправьте ввод или дезинформируйте его и проверьте пустую строку перед вызовом 'int'. Покажите воспроизводимый пример, и мы могли бы дать лучший совет. –
@MarkTolonen Этот мусор - это то, от чего я пытался избавиться. Что еще более важно, я хочу избежать всего такого мусора, если он будет представлен в любых данных, поступающих из внешних источников в будущем. MaxU дал приемлемое решение. – Adestin