2014-11-27 3 views
1

извлечение мета-теги с веб-сайта с использованием Порцию (SCRAPY)извлечение мета-теги с веб-сайта с использованием Порцию (SCRAPY)

я хочу использовать Порции для извлечения мета-тегов из некоторых веб-сайт, но его не показывая голову тег, он начинает из тела тега только

я только способен извлекать данные из тела тега

ответ

1

вы можете использовать это для мету названия:

meta_name = hxs.select('//meta/@name').extract() 

и это для меты содержания:

meta_content = hxs.select('//meta/@content').extract() 

и это для содержания мета с определенным именем, как описание:

meta = hxs.select('//meta[@name=\'description\']/@content').extract() 
7

Вы должны аннотировать элемент в body, а затем перейти к элементу в head, что вы хотите карта.

  1. Аннотировать элемент на странице, не имеет значения, какой из них.
  2. Щелкните значок настроек либо в всплывающем окне аннотации, либо в панели аннотаций в правой панели инструментов.
  3. Нажмите на элемент html. Вы получите предупреждение о том, что вы потеряете любые сопоставленные атрибуты в аннотации, нажмите «ОК».
  4. Щелкните значок настроек еще раз, и на этот раз выберите элемент head.
  5. Еще раз щелкните значок настроек, и вы можете выбрать дочерние элементы в пределах head.
  6. После того, как вы выбрали этот элемент, нажмите кнопку + Field, чтобы создать новое поле, а затем отобразите требуемое значение атрибута в целевое поле.

Смотрите также: https://github.com/scrapinghub/portia/issues/60

 Смежные вопросы

  • Нет связанных вопросов^_^