Я новичок в веб-очищении в R и пытаюсь запустить действие поиска Google, используя поисковый запрос из R и извлекать ссылки автоматически. Я частично успешно получаю ссылки на результаты поиска google, используя RCURL и пакет XML. Однако ссылки href, которые я извлекаю, включают нежелательную информацию и не соответствуют формату «URL».Поисковые ссылки Google для поиска по webscraping в R не в нужном формате
код я использую:
html <- getURL(u)
links <- xpathApply(doc, "//h3//a[@href]", xmlGetAttr, 'href')
links <- grep("http://", links, fixed = TRUE, value=TRUE)
Приведенный выше код дает мне семь ссылок, однако, они находятся в указанном ниже формате:
[1] "/url?q=http://theguitarrepairworkshop.com/services/&sa=U&ved=0ahUKEwiOnNXzsr7OAhWHAMAKHX_LApYQFggmMAM&usg=AFQjCNF1r13FMHXXTsxMkbwzortiWKDALQ"
Я предпочел бы, чтобы они были:
http://theguitarrepairworkshop.com/services/
Как извлечь href, как указано выше?
скрежет google является нарушением их условий обслуживания. я буду рад помочь, если вы издеваетесь над другим примером выскабливания. – hrbrmstr
* Использует ли RCURL/XML-пакет Xpath 1.0 или Xpath 2.0? * Если он использует 2.0, функция regex в инструкции xpath даст более простой код и более высокую производительность. – Paulb
@hrbrmstr: Спасибо, что сообщили мне. Я не знал об этом. Существуют ли другие юридические альтернативы для получения результатов поиска из Интернета через приложение. –