2016-08-23 7 views
0

Я использую рубин, чтобы загрузить полный веб-страницу с помощью Typhoeus, но он загружает только HTML,Можно ли загружать полную веб-страницу с помощью typhoeus вместо HTML только в Ruby?

request = Typhoeus::Request.new(
      "www.example.com", 
      method: :get, 
      headers: { Accept: "text/html" } 
    ) 

response.body возвращается только HTML, Могу ли я добавить любой формат, чтобы загрузить полный веб-страницу с его данными, находящиеся загружен через javascript? Или есть другой способ получить данные?

+1

Обычно вам «Ответственный за разбор HTML с чем-то вроде [Nokogiri] (http://nokogiri.org), а затем извлечение любых ресурсов, которые вы хотите после факта. Стоит отметить, что в инструменте 'wget' есть опция -m, которая рекурсивно пауки и загружает все, если вам нужно быстрое и грязное решение. – tadman

+0

Через nokogiri, я использовал открытый, но он тоже получает html только как веб-страница, которую я пытаюсь разобрать, загружает свои данные через javascript. – dips

+1

Что здесь делает JavaScript? Еще раз, Nokogiri является парсером HTML. Это не загрузчик сайта. Если для этого вам нужен JavaScript, вам нужно использовать [браузер безглавых] (https://www.ruby-toolbox.com/categories/browser_testing), поэтому удачи в этом. – tadman

ответ

0

Это не может быть сделано ни одним запросом. Вам нужно разобрать HTML, чтобы найти все изображения, необходимые и загрузить их

В зависимости от того, что вы делаете с этим, возможно, потребуется сделать то же самое для других активов на странице (например, CSS)

+0

Мне нужно получить содержимое с веб-страницы, которая загружается через javascript, как разобрать, чтобы получить данные, загруженные через javascript? – dips

 Смежные вопросы

  • Нет связанных вопросов^_^