значения Extract HREF с XPath на питона 2,7

Быстрый и простой:значения Extract HREF с XPath на питона 2,7

<a href="some content">Click here</a>

Как я извлечь «некоторое содержание» и «жми меня» с XPath на питона?

До сих пор у меня есть следующее (экстракт только "некоторые содержания" из HREF результатов):

import lxml.etree as LE 
import requests 

r = requests.get("http://localhost") 
html = r.text 
root = LH.fromstring(html) 
print root.xpath('//a/@href')

Спасибо adavance.

источник

2013-03-07 Thales Pereira

вы должны использовать XPath? Регулярное выражение должно работать для HTML. – b10hazard

Я использовал это с регулярным выражением ... но затем я взял стрелу в колене. Ввод шуток в сторону. regex не рекомендуется анализировать результаты html/xml :) –

А, я вижу. Я не знаком с xpath. Возможно, я дам эту попытку в следующий раз, когда мне нужно разобрать html. – b10hazard

Вы можете выбрать только одну или другую сторону, используя XPath, но вы можете выбрать все <a> элементы, а затем обрывать содержание href атрибутов и текста, как это:

for elt in root.xpath('//a'): 
    print(elt.attrib['href'], elt.text_content())

источник

2013-03-07 13:15:29 unutbu

еще раз спасибо =) –

значения Extract HREF с XPath на питона 2,7

ответ

Смежные вопросы