Используйте эту ссылку в raw_input: http://edition.cnn.com/
Как я могу заставить urllib использовать найденную ссылку?
import urllib
import re
CNN_Technology = (raw_input('Paste your link here: '))
urls = ["http://edition.cnn.com/"]
pattern = 'Entertainment</a><a class="nav-menu-links__link" href="//(.+?)data-analytics-header="main-menu_tech'
result = re.compile(pattern)
for url in urls:
htmlsource = urllib.urlopen(url)
htmltext = htmlsource.read()
cnntech = re.findall(result, htmltext)
print ""
print "CNN Link:"
print cnntech
print ""
Я хочу, чтобы вновь найти ссылку money.cnn.com/technology/
, чтобы быть там, где cnntech есть и сканировать его впоследствии.
urls = ["cnntech"]
pattern = 'Entertainment</a><a class="nav-menu-links__link" href="//(.+?)data-analytics-header="main-menu_tech'
result = re.compile(pattern)
for url in urls:
htmlsource = urllib.urlopen(url)
htmltext = htmlsource.read()
cnntech2 = re.findall(result, htmltext)
print "CNN Link:"
print cnntech2
<code>
Попытка извлечь фрагменты HTML с регулярным выражением ... Как это сказать? [Спорная тема] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454). Но попытка извлечь точную ссылку с самим регулярным выражением, состоящим из HTML-тегов, является абсолютным безумием. Вы * определенно * должны научиться использовать библиотеку синтаксического анализа html, например [BeautifulSoup] (https://www.crummy.com/software/BeautifulSoup/bs4/doc/#). –