2013-03-07 4 views
4

Быстрый и простой:значения Extract HREF с XPath на питона 2,7

<a href="some content">Click here</a> 

Как я извлечь «некоторое содержание» и «жми меня» с XPath на питона?

До сих пор у меня есть следующее (экстракт только "некоторые содержания" из HREF результатов):

import lxml.etree as LE 
import requests 

r = requests.get("http://localhost") 
html = r.text 
root = LH.fromstring(html) 
print root.xpath('//a/@href') 

Спасибо adavance.

+0

вы должны использовать XPath? Регулярное выражение должно работать для HTML. – b10hazard

+1

Я использовал это с регулярным выражением ... но затем я взял стрелу в колене. Ввод шуток в сторону. regex не рекомендуется анализировать результаты html/xml :) –

+0

А, я вижу. Я не знаком с xpath. Возможно, я дам эту попытку в следующий раз, когда мне нужно разобрать html. – b10hazard

ответ

2

Вы можете выбрать только одну или другую сторону, используя XPath, но вы можете выбрать все <a> элементы, а затем обрывать содержание href атрибутов и текста, как это:

for elt in root.xpath('//a'): 
    print(elt.attrib['href'], elt.text_content()) 
+0

еще раз спасибо =) –

 Смежные вопросы

  • Нет связанных вопросов^_^