Я хотел бы извлечь фактический контент из wikipedia dump file для данной категории, однако я не могу понять, какой файл дампа содержит фактическое содержимое страницы.
У меня есть набор полных адресов, как http://en.wikipedia.org/wiki/Episkopi_Bay
http://en.wikipedia.org/wiki/Monte_Lauro
http://en.wikipedia.org/wiki/Lampedusa
http://en.wikipedia.org/wiki/Himera
Я пытаюсь сделать некоторый анализ с использованием Python 2.7 того, как содержимое статьи в Википедии изменяется со временем. Меня интересует только содержание страницы, и самый простой способ сделат