2013-06-12 4 views
2

Я использовал rcurl справедливый бит для простого поиска текста и простого выскабливания, но я сфокусирован на тенденциях Google. Давайте используем obama & romney в качестве примера. Если вы добавите «& export = 1», тенденции Google возвращают страницу, отображающую данные, лежащие в основе графика.rcurl & innerHTML/innertext (соскабливание тенденций в Google с помощью R)

http://www.google.com/trends/explore?q=obama%2C+romney#q=obama%2C%20romney&export=1

На этой странице данные живет в reportContent DIV, который можно исследовать путем проверки элемента для:

<div id="reportContent" class="report-content"> </div> 

Более конкретно, он спрятан в innerHTML а свойства внутреннего текста, связанные с этим div. Я никогда не видел этого до & Мне интересно, как получить доступ к этим данным с помощью rcurl. Мне также интересно, если кто-то узнает, почему Google не просто представляет данные в простом html. Я признаю, что я не очень осведомлен; Я читаю как можно больше, но то, что я узнал о свойстве innertext (не так много), не особенно освещается или помогает изменить мой скрипт rcurl.

+1

Почему вы не загружаете его в формате CSV, например. (для указанного выше URL-адреса): http://www.google.com/trends/trendsReport?hl=ru&q=obama%2C%20romney&export=1&content=1 – daroczig

+0

Не знал, как - спасибо! Вы ответили на мой вопрос. – Don

+0

Недавно был опубликован пакет с именем GTrends, который основан на библиотеке RCurl и должен делать то, что вы пытаетесь выполнить. Посмотрите на [** Just Another R Blog **] (http://anotherrblog.blogspot.com/2013/06/introducing-gtrendsr.html) – hvollmeier

ответ

0

Чтобы получить несколько данных о тенденциях, вам необходимо войти в систему Google, иначе вам будет легко заблокирован Google. Google может учитывать несколько факторов, блокирующих вас, например. IP-адрес/учетные записи google/тип устройства/машина или человек.

Я предоставляю онлайн-службу отслеживания тенденций в Google на http://www.datadriver.info/scrapdata/?case_task_id=b333f048be31cad3922f1c8c919700f860f5adbe, используя эту службу, вы не столкнетесь с проблемой скуки «Вы достигли своего предела квоты». Повторите попытку позже ».