Сообщество Hello StackOverflow.Проблема с кодировкой Unicode в Python
Я довольно новый пользователь Python, поэтому извините заранее за глупость этого вопроса! Но я пытался исправить это в течение нескольких часов, но до сих пор не понял.
Я пытаюсь импортировать большой набор данных текста для управления им в Python.
Этот набор данных находится в .csv, и у меня были проблемы с его чтением из-за проблем с кодировкой.
Я пытался кодировать его в UTF-8 текст с блокнотом ++ Я попробовал модуль csv.reader в Python
Вот пример моего кода:
import csv
with open('twitter_test_python.csv') as csvfile:
#for file5 in csvfile:
# file5.readline()
#csvfile = csvfile.encode('utf-8')
spamreader = csv.reader(csvfile, delimiter=str(','), quotechar=str('|')
for row in spamreader:
row = " ".join(row)
row2= str.split(row)
listsw = []
for mots in row2:
if mots not in sw:
del mots
print row2
Но когда я импортировать мои данные в Python У меня все еще есть проблемы с кодировкой (акценты и т. д.), независимо от того, какой метод я использую.
Как я могу кодировать свои данные так, чтобы их можно было правильно читать с помощью Python?
Спасибо!
* У меня все еще есть проблемы с кодировкой * означает точно ничего! Скажите, что происходит точно и что ожидается. –
Вот пример списка из моих данных: [u "En vrai j'en ai marre j'ai une poste \ xe0 3min de chez moi et le postier il d \ xe9cide de mettre mon colis dans une poste que je connais pas "]. –
Я хочу иметь это: [En vrai j'en ai marre j'ai une poste à 3min de chez moi et le postier il décide de mettre mon colis dans une poste que je connais pas] –