Я использую beautifulsoup для создания данных с веб-сайта. Мне нужно сначала захватить все файлы .gz
с сайта sitemap.xml
.Используйте файл BeautifulSoup open .gz в файле sitemap.xml
я сделал:
def getGz():
http = httplib2.Http()
status, response = http.request('url/sitemap.xml)
soup = BeautifulSoup(response)
links = soup.find_all("loc")
Тогда я URL всех .gz
файлы, но с <loc>
из стороны. Как я могу избавиться от <loc>
?
Что я сейчас:
<loc>url/sitemap-samples-0.xml.gz</loc>
Я хочу, чтобы избавиться от <loc>
, а затем открыть файл .gz
.
И, как я могу открыть .gz
файлы из Интернета и получить информацию в нем с помощью python?
Выполнение '.get_text()' на каждой из ссылок должно избавиться от тегов ''. –
dstudeba