2016-12-27 1 views
0

Я использую Python для очистки данных из конкретной таблицы и сохранения их в файл, который будет заполнен той же таблицей из нескольких веб-страниц (соединений). Однако у меня возникают трудности с определением соответствующей таблицы с помощью BeautifulSoup. Вот соответствующий HTML код:Автоматический поиск TimeOut Ошибка при скрещивании

Table Identifier HTML from Website

Вот соответствующая часть моего кода:

url2="https://chem.nlm.nih.gov/chemidplus/rn/50-00-0" 
r=requests.get(url2) 
html=r.content 

soup=BeautifulSoup(html,'lxml') 
print(soup.prettify()) 

дает мне HTML, который имеет только сценарий: «Автоматизированные поисковые запросы: макс 1 каждые 3 секунды. Перезагрузка в 1. setTimeout (function() {location.reload (true);}, 1100);

Я верю, что это ошибка в моем коде, но веб-поиск не стал объяснять, почему это произошло, или как его исправить. * ОБНОВЛЕНИЕ/ЗАКЛЮЧЕНИЕ: после загрузки страницы я добавил driver.implicitly_wait (3) и после определения таблицы, чтобы замедлить работу программы. Ошибка не была реплицирована.

+1

похоже, что у сайта есть обнаружение бота, и оно дает вам сообщение. Итак, сделайте то, что он предлагает: «1 поиск каждые 3 секунды» – eLRuLL

+0

Эта часть скрипта работает только с одним поиском отдельной таблицы на единственной веб-странице и включает в себя файл driver.implicitly_wait (10) после загрузки страницы и затем переходит непосредственно в сценарий выше. Есть ли другой способ замедлить бот-царапину? – HStinnett

ответ

1

ОБНОВЛЕНИЕ/ЗАКЛЮЧЕНИЕ: после загрузки страницы я добавил driver.implicitly_wait (3) и после определения таблицы, чтобы замедлить работу программы. Ошибка не была реплицирована.