2017-02-11 3 views
0

Я начал изучать Python для науки о данных. Я уже использую R почти ежедневно. Я стою на первом шаге. Я пытаюсь импортировать файл csv с помощью метода Pandas read_csv. У меня проблема с кодировкой файла при импорте.Ошибка при импорте csv в Python с использованием pandas

Если я использую read.csv из R все нормально:

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8') 

, но если я использую подобный код в Python:

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8') 

возвращает ошибку:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte 

Как возможно, что я могу импортировать файл с кодировкой «utf-8» в R, но не в Python?

Если я использую другую кодировку (latin1 или iso-8859-1), она успешно импортирует файл, но символы не кодируются правильно.

+0

Хорошо, я полагаю, что кодировка 'cp1250' работает отлично. – Mislav

+0

Пожалуйста, покажите нам образец вашего 'myfile.txt', чтобы помочь нам лучше понять проблему. –

ответ

0

Даже если я не понимаю, почему UTF-8 работает в R, но не в Python, я узнал, что кодировка cp1250 работает нормально.

-1

Использовать кодировку «UTF-16». Я использовал это для решения моей проблемы с той же ошибкой.

+0

Вы имеете в виду, что использование 'utf-16' решило вашу проблему или вы имеете в виду, что оно все еще дает вам такую ​​же проблему? – Simon