Я начал изучать Python для науки о данных. Я уже использую R почти ежедневно. Я стою на первом шаге. Я пытаюсь импортировать файл csv с помощью метода Pandas read_csv. У меня проблема с кодировкой файла при импорте.Ошибка при импорте csv в Python с использованием pandas
Если я использую read.csv из R все нормально:
df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')
, но если я использую подобный код в Python:
import pandas as pd
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')
возвращает ошибку:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte
Как возможно, что я могу импортировать файл с кодировкой «utf-8» в R, но не в Python?
Если я использую другую кодировку (latin1 или iso-8859-1), она успешно импортирует файл, но символы не кодируются правильно.
Хорошо, я полагаю, что кодировка 'cp1250' работает отлично. – Mislav
Пожалуйста, покажите нам образец вашего 'myfile.txt', чтобы помочь нам лучше понять проблему. –