Во-первых, вот мой код, как я прогрессировал до сих пор:node.js + cheerio scrape: Передача массива URL-адресов для загрузки?
var http = require("http");
// Utility function that downloads a URL and invokes
// callback with the data.
function download(url, callback) {
http.get(url, function(res) {
var data = "";
res.on('data', function (chunk) {
data += chunk;
});
res.on("end", function() {
callback(data);
});
}).on("error", function() {
callback(null);
});
}
var cheerio = require("cheerio");
var url = "http://www.bloglovin.com/en/blogs/1/2/all";
var myArray = [];
var a = 0;
var getLinks = function(){download(url, function(data) {
if (data) {
// console.log(data);
var $ = cheerio.load(data);
$(".content").each(function(i, e) {
var blogName = $(e).find(".blog-name").text();
var followLink = $(e).find("a").attr("href");
var blogSite = $(e).find(".description").text();
myArray[a] = [a];
myArray[a]["blogName"] = blogName;
myArray[a]["followLink"] = "http://www.bloglovin.com"+followLink;
myArray[a]["blogSite"] = blogSite;
a++;
console.log(myArray);
});
}
});
}
getLinks();
Как вы можете видеть, followLinks
сцепляется к followUrl
, из которых я хотел бы пройти через 'url'
загрузки, так что эффективно I- 'будет очищать каждую страницу, используя те же правила CSS, которые будут добавлены в многомерный массив для соответствующего блоггера.
Как я могу это сделать?
Два вызовов включить 'http' модуль? Удалите один из них – sachinjain024
, что было ошибкой при вставке! – user3015175