1
Я очистил эти таблицы в одной таблице на питоне с помощью BeautifulSoup. Код выглядит следующим образом:Экспорт скребковых таблиц в CSV
import urllib2
from bs4 import BeautifulSoup
for i in range(0,39):
first=urllib2.urlopen("http://www.admision.unmsm.edu.pe/res20130914/A/011/"+str(i)+".html").read()
soup=BeautifulSoup(first)
for tr in soup.find_all('tr')[2:]:
tds = tr.find_all('td')
print tds[0].text, tds[1].text, tds[2].text, tds[3].text
В результате получается нечто вроде этого:
494560 ABAD SAAVEDRA, GERSON HORACIO 011 1116.8750
455314 ABAD VALVERDE, MARIA ISABEL 011 1482.7500
491005 ABREGU HUAMAN, MERCEDES LILIANA 011 503.4000
457929 ACOSTA ABAD, ALEJANDRO FRANCISCO 011 413.0500
Итак, как я могу экспортировать эту таблицу в формате CSV?
Несовершеннолетний придираться: Это может быть немного чище в UTF-8 все сразу, а не повторять себя. Может быть, '[elem.text.encode ('utf-8') для elem in tds [: 4]]'? – abarnert
@abarnert, Спасибо за совет. Я обновляю код в соответствии с вашими комментариями. – falsetru
Есть ли хороший учебник или тема, чтобы понять код для экспорта в CSV? – CreamStat