2013-02-11 1 views
0

Я пытаюсь получить текст из тела публикации в CraigsList, используя следующую формулу в электронной таблице Google Документов, но сохраняю сообщение об ошибке «Запрос XPATH не возвратил данные."Не удалось получить данные с ImportXML

Формула я использую,

= ImportXML (D2, "// раздел [@ ид = 'postingbody']")

где D2 имеет проводки URL: http://losangeles.craigslist.org/wst/apa/3608091461.html

Я посмотрел несколько ссылок, чтобы проверить мою формулу, но я не могу понять, что случилось. Буду признателен за любую оказанную помощь. Заранее благодарю! :)

ответ

0

Попробуйте Xpath выражение:

//*[@id="postingbody"]/text() 
+0

Хмм, все еще не работает для меня. Я попытался заменить «раздел» на другие «div» и соответствующие атрибуты id или class, и, похоже, работает нормально. Только когда я представляю «раздел», когда это, похоже, терпит неудачу. интересно, если это просто не актуально с введением «раздела» в html5 ... – user2060022

0

Это может быть просто крейгслист блокирует его, там действительно строг с их скребковые правилами.

вы можете попробовать две вещи, вам, возможно, придется играть с какой части вы хотите извлечь или как вы хотите отформатировать его:

вы можете попробовать: = REGEXEXTRACT (СЦЕПИТЬ (ImportXml (A1, "/ ./html "))," избегая жульничества ( \ п *) не ")

или попробовать: = ImportXml (A1,".?. // HTML ")

или, наконец: = importxml (A1, "// body")

 Смежные вопросы

  • Нет связанных вопросов^_^