2017-01-16 4 views
0

Я попытался использовать beautifulSoup, но не удалось.Как я могу получить доступ к описанию компании из crunchbase с помощью python?

import urllib2 
import tldextract 
from BeautifulSoup import BeautifulSoup 
opener = urllib2.build_opener() 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
u2 = urllib2.urlopen("https://www.crunchbase.com/organization/facebook#/entity") 
soup = BeautifulSoup(u2) 
access_response_2 = soup.find('dl',class = "definition-list-container") 

ответ

-1

Я не думаю, что вы можете подключить & разобрать сайт cruchabse с urllib2. В прошлый раз, когда я пытался, они бросали 416 Ошибка HTTP. Затем я попробовал установить useragent, правильные заголовки HTTP и значения cookie с запросом urllib2, но также не удалось.

Вместо этого используйте selenium. С этим вы сможете подключиться к странице Cruchbase &. После подключения к целевой странице, разобрать его с анализатором, который поставляется с селеном или вы можете использовать BeautifulSoup, а

Пример кода:

from selenium import webdriver 
driver= webdriver.Firefox() 
driver.get('https://www.crunchbase.com/organization/facebook#/entity') 

синтаксического анализа с селеном

driver.find_element_by_class_name('definition-list-container') 

или синтаксического анализа с BeautifulSoup

soup = BeautifulSoup(driver.page_source, "html.parser") 
soup.find('dl',{ 'class' : "definition-list-container"}) 
+0

Я получаю эту ошибку: >>> d река = webdriver.Firefox() Traceback (самый последний вызов последнего): Файл "", строка 1, в Файл «/usr/local/lib/python2.7/dist-packages/selenium/webdriver/firefox /webdriver.py ", строка 140, в __init__ self.service.start() Файл« /usr/local/lib/python2.7/dist-packages/selenium/webdriver/common/service.py », строка 81 , в начале os.path.basename (self.path), self.start_error_message) selenium.common.exceptions.WebDriverException: Сообщение: исполняемый файл geckodriver должен находиться в PATH. – Bazinga

+0

вам нужно установить селеновый диск proprely Сначала загрузите geckodriver из [этой ссылки] (https://github.com/mozilla/geckodriver/releases), извлеките zip-файл и укажите загруженный путь драйвера в инструкции инициатора драйвера. например: 'driver = webdriver.Firefox (executable_path = 'E: \\ apps \\ geckodriver.exe')' – ApruKG

+0

Мне удалось исправить эту проблему. Однако ваш код выше не дает описания компании из crunchbase. Не могли бы вы помочь мне в ее исправлении? Благодаря! – Bazinga

 Смежные вопросы

  • Нет связанных вопросов^_^