Я хочу разобрать XML Wikipedia дамп и извлечь все различные виды таблиц из него (а не только infoboxes)Извлечение таблиц из Википедии XML дамп
Я использую wikixmlj разобрать свалку, но проблема разборе различные типы таблиц в дампе Википедии (таблицы сплит-ячеек, таблицы объединенных ячеек, таблицы с цветовыми кодами).
Мне удалось разобрать статьи XML, пока не найду элементы, помеченные как таблицы, но у меня нет стандарта для анализа таблиц в объектах, и кажется, что существует множество типов таблиц со многими аранжировками.
есть ли какой-либо документированный стандарт о типах таблиц, чтобы я мог покрыть это в объектах среды выполнения, которые я собираюсь создать, или есть ли способ обойти это?
Примечание:
вот некоторые примеры, которые помогут вам знать, что я имею в виду:
http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States См Эндрю Джексон ряд (некоторые строки объединяются и разделить)
http://en.wikipedia.org/wiki/List_of_pharaohs
http://en.wikipedia.org/wiki/Open_Handset_Alliance
http://en.wikipedia.org/wiki/Comparison_of_web_server_software иногда заголовок на верхней и нижней
Таблицы написаны разными людьми для разных целей, поэтому вы не можете ожидать там большей согласованности. – svick
Я думал, что люди, производящие дамп xml, каким-то образом помещают их в ряд определенных типов таблиц. – SKandeel
XML-дампы содержат ровно тот же текст, что и исходная страница, вот и вся свалка. И люди, производящие их, не собираются идти на миллионы страниц, чтобы делать то, что вы ожидали. – svick