Я пишу программу, чтобы очистить таблицу Википедии с помощью python. Все работает отлично, за исключением некоторых символов, которые, похоже, не корректно кодируются python.Python: Проблема с кодировкой символов
Вот код:
import csv
import requests
from BeautifulSoup import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
url = 'https://en.wikipedia.org/wiki/List_of_airports_by_IATA_code:_A'
response = requests.get(url)
html = response.content
soup = BeautifulSoup(html)
table = soup.find('table', attrs={'class': 'wikitable sortable'})
list_of_rows = []
for row in table.findAll('tr'):
list_of_cells = []
for cell in row.findAll('td'):
text = cell.text.replace(' ', '')
list_of_cells.append(text)
list_of_rows.append(list_of_cells)
outfile = open("./scrapedata.csv", "wb")
writer = csv.writer(outfile)
print list_of_rows
writer.writerows(list_of_rows)
Например Merzbrück
в настоящее время кодируется как Merzbrück
. Проблема более или менее кажется скандинавами (é, è, ç, à и т. Д.). Есть ли способ избежать этого? Заранее благодарим за помощь.