Отбрасывание «#» ссылок из Scrapy crawl

-1

Я running this spider на сайте. Он работает нормально, но одна проблема, с которой я сталкиваюсь, заключается в том, что существует ряд hrefs с «#» в качестве ссылки.Отбрасывание «#» ссылок из Scrapy crawl

Как я могу вообще пропустить или удалить эти # ссылки? Я выводя ссылки на файл в настоящее время и используя дампы lstrip "" в файл. Я также пробовал i.replace, но он по-прежнему оставляет пустую строку в файле.

источник

2017-02-20 Christopher Smith

Можете уточнить свое намерение? вы хотите удалить «#» из строки? игнорировать все это? –

Как правило, рекомендуется размещать соответствующие части кода * здесь *, а не размещать их по какой-либо сторонней ссылке. –

Для всего, что соответствует вашему селектору, вы находитесь yield ing. Условно yield, так конвертировать:

for i in selector.extract(): 
    yield {"url": i.lstrip('#')}

в нечто вроде

for i in selector.extract(): 
    url = i.lstrip('#') 
    if url: 
     yield {"url": url}

источник

2017-02-20 23:07:56

Для того, чтобы пропустить эти ссылки, вам необходимо изменить выражение XPath для извлечения HREF атрибута, только если они не содержат «#»

selector = response.xpath('//*/a[not(contains(@href, "#"))]/@href')

источник

2017-02-22 08:24:56 zet5

Это сработало отлично! Я на самом деле пробовал 'not (contains())' ранее, но, похоже, мой синтаксис был неправильным. Благодаря! –

Отбрасывание «#» ссылок из Scrapy crawl

ответ

Смежные вопросы