Как я могу сделать плавный переход от части 1 к части 2 и сохранить результаты в Part3? До сих пор мне не удалось разобрать скребковый URL-адрес, если я сам не вставил его в часть 2. Кроме того, я не смог сохранить выходные результаты, поскольку последняя ссылка на url перезаписала все остальные.Разбор URL-ссылки для тега из списка ссылок URL-адресов, проанализированных из сохраненного файла html. И сохранить все это в csv ouput
import urllib
import mechanize
from bs4 import BeautifulSoup
import os, os.path
import urlparse
import re
import csv
Часть 1:
path = '/Users/.../Desktop/parsing/1.html'
f = open(path,"r")
if f.mode == 'r':
contents = f.read()
soup = BeautifulSoup(content
search = soup.findAll('div',attrs={'class':'mf_oH mf_nobr mf_pRel'})
searchtext = str(search)
soup1 = BeautifulSoup(searchtext)
for tag in soup1.findAll('a', href = True):
raw_url = tag['href'][:-7]
url = urlparse.urlparse(raw_url)
p = "http"+str(url.path)
Часть 2:
for i in url:
url = "A SCRAPED URL LINK FROM ABOVE"
homepage = urllib.urlopen(url)
soup = BeautifulSoup(homepage)
for tag in soup.findAll('a',attrs={'name':'g_my.main.right.gifts.link-send'}):
searchtext = str(tag['href'])
original = searchtext
removed = original.replace("gifts?send=", "")
print removed
Часть 3
i = 0
for i in removed:
f = open("1.csv", "a+")
f.write(removed)
i += 1
f.close
Update 1.After совет, я все еще получаю это: TraceBack (последний последний звонок): Файл «page.py», строка 31, в homepage = urllib.urlopen (url) Файл «/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py», line 87, in urlopen return opener.open (url) Файл «/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py», строка 180, открыта fullurl = распаковать (toBytes (fullurl)) Файл «/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py», строка 1057, в разворачивающемся url = url.strip() AttributeError: объект «ParseResult» не имеет атрибута «strip»
Вам не нужно, чтобы проверить файловый режим, когда вы только что открыли файл самостоятельно, между прочим. –