Я хочу, чтобы очистить все отзывы пользователей из этого hotel main page, используя пакет Rvest в R.Как скрести все отзывы от HolidayIQ использования Rvest и phantomJS
я только в состоянии получить первые 10 отзывов. Следующий набор обзоров загружается нажатием кнопки «Показать больше», которая генерируется JavaScript.
Я написал следующий JavaScript - 'basic.js':
var webPage = require('webpage');
var page = webPage.create();
var fs = require('fs');
var path = 'taj.html'
page.open('http://www.holidayiq.com/Taj-Exotica-Benaulim-hotel-2025.html', function (status) {
var content = page.content;
fs.write(path,content,'w')
phantom.exit();
});
Затем я использовал следующую команду в R:
system("./phantomjs basic.js")
Выходной файл 'taj.html' не есть все отзывы. Таким образом, код scrape ...
pg <- read_html("taj.html")
pg %>% html_nodes(".detail-review-by-hotel .srm") %>% html_node(".media-heading") %>% html_text()
... только возвращает первые 10 отзывов.
вы можете также показать мне путь, чтобы извлечь полный текст обзора (текст после нажатия на кнопку «далее») ?? –