Я пытаюсь извлечь содержимое infobox с помощью пакета python wikipedia.Как извлечь инфобокс vcard из википедии с помощью библиотеки википедии python
Мой код выглядит следующим образом (для this page):
import wikipedia
Aldi = wikipedia.page('Aldi')
Когда я вхожу:
Aldi.content
Я получаю текст статьи, но не Википедия.
Я попытался получить данные из DBPedia, но не повезло. . Я также попытался извлекая страницу с BeautifulSoup4, но таблица странно структурирована (так как изображение охватывающего через оба колонок с последующих безымянными столбцами
Это, насколько я пошел с BeautifulSoup:
from bs4 import BeautifulSoup
import urllib2
site= "http://en.wikipedia.org/wiki/Aldi"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
print soup
Я также посмотрел в викиданном, но он не содержит большую часть информации, которую мне нужно из таблицы.
Я не обязательно зациклен на упаковке питона в качестве решения. Все, что может анализировать таблицу будет быть прекрасным.
Предпочтительно, я хотел бы иметь словарь со значениями Infobox:
Type Private
Industry Retail
и т.д ...
Возможный дубликат [Содержание Infobox Википедии] (http://stackoverflow.com/questions/8088226/content-of-infobox-of-wikipedia) – Nemo