2016-11-06 2 views
0

Мне нужно получить всю информацию о круизах с этой страницы http://www.pocruises.com/find-and-book/cruise-search-results/ Проблема в том, что кнопка, вызывающая эту страницу, не имеет href, чтобы отправить запрос и когда я отправляю его по ссылке выше, я получаю <Response [200]>. Как получить всю информацию о круизах в json или xml? Нужно ли мне очищать запись страницы вводом? Это то, что я сделал до сих пор:Как сканировать результаты поиска страниц при возврате запроса на пост/голову 200

page = session.get("http://www.pocruises.com/find-and-book/cruise-search-results/") 
print(page) 

ответ

0

Вы можете использовать BeautifulSoup, чтобы получить все ссылки на странице.

# -*- coding: utf-8 -*- 

import urllib2 
from bs4 import BeautifulSoup 

url = 'http://www.pocruises.com/find-and-book/cruise-search-results/' 

response = urllib2.urlopen(url).read() 

soup = BeautifulSoup(response, 'html.parser') 
links = soup.find_all('a') 
for link in links: 
    print link.get('href') 

Но если вам нужно получить больше информации, я предлагаю вам использовать Scrapy https://scrapy.org/

+0

это не совсем то, что я просил ... – nephilimrising

 Смежные вопросы

  • Нет связанных вопросов^_^