2010-03-04 3 views
3

Я не очень хорошо знаком с python и должен написать скрипт для выполнения множества функций. В основном модулю, который мне по-прежнему нужен, является проверка кода веб-сайта для соответствующих ссылок, предоставленных заранее.Как написать скрипт python для поиска на сайте html для сопоставления ссылок

ответ

5

Соответствующие ссылки какие? Их атрибут HREF? Текст отображения ссылки? Возможно, что-то вроде:

from BeautifulSoup import BeautifulSoup, SoupStrainer 
import re 
import urllib2 

doc = urllib2.urlopen("http://somesite.com").read() 
links = SoupStrainer('a', href=re.compile(r'^test')) 
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)] 
for elm in soup: 
    print elm 

Это будет захватывать содержимое HTML в somesite.com, а затем разобрать его с помощью BeautifulSoup, глядя только ссылки, чьи HREF атрибута начинается с «тест». Затем он создает список этих ссылок и распечатывает их.

Вы можете изменить это, чтобы сделать что-либо, используя documentation.

3

Как правило, вы используете urllib, urllib2 (htmllib и т. Д.) Для программирования в Интернете на Python. вы также можете использовать mechanize, curl и т. д. Затем для обработки HTML и получения ссылок вы хотели бы использовать синтаксические анализаторы, такие как BeautifulSoup.

0

попробуйте scrapy, наиболее полную структуру извлечения веб-изображений.

http://scrapy.org

 Смежные вопросы

  • Нет связанных вопросов^_^