2015-05-30 1 views
4

Я пытаюсь настроить экстрактор в Import.io, и мне трудно получить API для публикации. Каждый раз, когда он говорит мне, что он не может опубликовать API и, возможно, попытаться использовать xpaths. Поэтому после некоторых дальнейших исследований я обнаружил, что xpath для ссылок заголовков, найденных на странице списка Craig, хранится в теге span. Тег выглядит следующим образом:Как правильно установить xpaths в import.io для очистки

span[@class='pl'] 

Я попытался установить следующее в области XPATH из import.io для поля

//span[@class='pl'] 

, но безрезультатно. Независимо от того, что я пытаюсь сделать, я не могу получить API для публикации. Хотя я могу получить данные для экспорта в набор данных, мне бы очень хотелось получить API для публикации.

Мне интересно, удалось ли кому-либо добиться успеха с помощью import.io, чтобы сделать некоторые незначительные выскабливания списка Craigs? И если да, то каковы были шаги для правильного опубликования API?

Кроме того, в качестве дополнительной заметки я прочитал несколько статей о Scrapy, но я ничего не знаю о python, как его установить и запустить, даже если бы я нашел конкретный фрагмент кода, который напрямую связан с этот вопрос. У кого-нибудь есть представление о том, как я могу заставить Import.io опубликовать API?

ответ

5

Так что для тех, кто еще ищет ответ на этот вопрос, как установить правильный XPath для соскабливания заголовков на список Крейга с помощью Import.io является установкой передового XPATH переопределения следующего:

.//span[@class='pl']/. 

Теперь моя проблема - около 403 ошибок, возвращаемых из списка Craig's, что означает запрет.