Я хочу очистить страницу «https://www.ukr.net/ua/news/sport.html» с Nodejs. I`m пытается сделать основной запрос GET с модулем НПМ «запрос», вот пример:Скребок Nodejs
const inspect = require('eyespect').inspector();
const request = require('request');
const url = 'https://www.ukr.net/news/dat/sport/2/';
const options = {
method: 'get',
json: true,
url: url
};
request(options, (err, res, body) => {
if (err) {
inspect(err, 'error posting json');
return
}
const headers = res.headers;
const statusCode = res.statusCode;
inspect(headers, 'headers');
inspect(statusCode, 'statusCode');
inspect(body, 'body');
});
Но в теле ответа я получаю только
body: '<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01
Transitional//EN">\n<html>\n<head>\n<META HTTP-EQUIV="expires"
CONTENT="Wed, 26 Feb 1997 08:21:57 GMT">\n<META HTTP-EQUIV=Refresh
CONTENT="10">\n<meta HTTP-EQUIV="Content-type" CONTENT="text/html;
charset=utf-8">\n<title>www.ukr.net</title>\n</head>\n<body>\n
Идет загрузка, подождите .....\n</body>\n</html>'
Если я получить запрос от Почтальон, Я получаю то, что мне нужно:
Пожалуйста, помогите мне, ребята.
'Идет загрузка, подождите .....' = 'загрузка, пожалуйста, подождите ....' - страница, которую вы пытаетесь скрести имеет элементы, которые загружаются динамически, так что ваши первоначальный запрос возвращается с сообщением «загрузка» - возможно, вы могли бы использовать что-то вроде фантомных js для рендеринга страницы для вас? http://stackoverflow.com/a/31059035/459517 - Почтальон, вероятно, делает что-то подобное автоматически. – Robbie