Задание отдельных строк при извлечении на import.io

должно быть очень простое решение, которое я игнорирую - я установил import.io для извлечения из страницы wikipedia here, и я не могу указать каждую запись в алфавитном порядке, чтобы быть на отдельной строке при извлечении - при обучении он выбирает все, чтобы быть в одной строке, поэтому он не поддается использованию. Любые идеи?Задание отдельных строк при извлечении на import.io

источник

2015-07-29 Thomas Sharp

Wikipedia - это очень сложный веб-сайт, а не для извлечения данных из (всего html, без Javascript или AJAX), но для автоматического извлечения. Это связано с тем, что Википедия свободна и открыта для редактирования, что приводит к миллионам различных структур страниц.

Существует несколько способов обойти это, хотя, хотя их легко применять, зависит от каждого варианта использования. Вместо того, чтобы использовать наш курс и тип обучения, вы можете вручную обучить его, указав XPath. Например, если данные всегда структурированы в таблице, вы можете использовать XPath: // table . Это будет просто сканировать весь сайт для любых таблиц и извлечь его. Однако это скорее всего также приведет к нежелательным таблицам, поэтому вам нужно будет указать, какую таблицу. Например, таблица на этом сайте имеет класс «wikitable». Поэтому мы указываем его как: // table [@ class = "wikitable"]

И тогда вам, конечно же, нужно убедиться, что то же самое относится ко всем остальным страницам для забастовщиков. Данные легко узнаваемы людьми, но для того, чтобы понять, что машина - это трудная задача найти общий элемент между данными, которые вы ищете, и сообщить роботу, что вещи с этим общим элементом - это то, что он должен извлечь.

Thanks,
Meg

источник

2015-08-12 09:09:22

Задание отдельных строк при извлечении на import.io

ответ

Смежные вопросы