Я новичок в scrapy
и XPath
, но программирование на Python на некоторое время. Я хотел бы получить email
, name of the person making the offer
и phone
номер со страницы https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
с помощью scrapy. Как вы видите, электронная почта и телефон предоставляются как текст внутри тега <p>
, и это затрудняет извлечение.Как получить описание работы с помощью scrapy?
Моя идея заключается в том, чтобы сначала получить текст внутри Job Overview
или, по крайней мере, весь текст говорить об этом соответствующей работы и использовать ReGex
, чтобы получить email
, phone number
и, если возможно name of the person
.
Итак, я запустил scrapy shell
с помощью команды: scrapy shell https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/
и получить response
оттуда.
Теперь я пытаюсь получить весь текст из div job_description
, где я фактически ничего не получаю. Я использовал
full_des = response.xpath('//div[@class="job_description"]/text()').extract()
Он возвращает [u'\t\t\t\n\t\t ']
Как получить весь текст на странице упоминается? Очевидно, задача будет позже, чтобы получить атрибуты, упомянутые ранее, но, во-первых, сначала.
Update: Этот выбор только возвращает []
response.xpath('//div[@class="job_description"]/div[@class="container"]/div[@class="row"]/text()').extract()
после ДИВ [@ класс = «job_description»] вы сразу же перейти к Div [@ класс = «контейнер»], так что вы пропустили один элемент, называемый "раздел". вы можете использовать его в запросе xpath или использовать //, например. div [@ class = "job_description"] // div [@ class = "container"]/..... – Borna