Я не очень хорошо знаком с python и должен написать скрипт для выполнения множества функций. В основном модулю, который мне по-прежнему нужен, является проверка кода веб-сайта для соответствующих ссылок, предоставленных заранее.Как написать скрипт python для поиска на сайте html для сопоставления ссылок
3
A
ответ
5
Соответствующие ссылки какие? Их атрибут HREF? Текст отображения ссылки? Возможно, что-то вроде:
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2
doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
print elm
Это будет захватывать содержимое HTML в somesite.com
, а затем разобрать его с помощью BeautifulSoup, глядя только ссылки, чьи HREF атрибута начинается с «тест». Затем он создает список этих ссылок и распечатывает их.
Вы можете изменить это, чтобы сделать что-либо, используя documentation.
3
Как правило, вы используете urllib, urllib2 (htmllib и т. Д.) Для программирования в Интернете на Python. вы также можете использовать mechanize, curl и т. д. Затем для обработки HTML и получения ссылок вы хотели бы использовать синтаксические анализаторы, такие как BeautifulSoup.
0
попробуйте scrapy, наиболее полную структуру извлечения веб-изображений.