2017-02-08 15 views
0

У меня есть постраничный список IMDb названий около 17 страниц: the listИзвлечения данных из страничных вложенных ссылок

Ссылки имеет URL-адрес в виде http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt

Где tt0111161 является название ID.

Я хотел бы просмотреть весь список, и для каждого заголовка перейдите по адресу http://www.imdb.com/title/tt0111161/ratings
и извлеките информацию HTML с этой страницы. Как я могу это сделать с помощью Scrapy, BeautifulSoup или любого другого метода?

+0

Что вы хотите добавить в «http://www.imdb.com/title/tt0111161/ratings»? –

+0

@ PiyushS.Wanare Распределение голосов. –

+0

Что вы пробовали? Есть ли у вас код для совместного использования с проблемами, которые вы видите во время его запуска? –

ответ

0

Я попробовал так: -

from bs4 import BeautifulSoup 
import urllib 
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read() 
soup = BeautifulSoup(r) 
print soup 

Примечание - IMDb не позволит отказаться от их веб-сайт.

+0

Хорошо, что можно скачать страницу рейтинга, спасибо. Но мне нужен способ получить страницу рейтингов для каждого заголовка в списке. Как это сделать? –

+0

Проверьте, есть ли у IMdb какой-либо API, кроме того, у них есть безопасность, мы не можем отказаться от этого. –

+0

Я проверил, у них нет API, все, что у них есть, - это дамп текстовых файлов, которые беспорядочны и трудны для синтаксического анализа, поэтому это единственный путь. Что вы подразумеваете под словом «у них есть безопасность»? –