2015-11-18 4 views
-3

Я пытаюсь собрать данные из 75 000 статей о сети знаний. Все данные можно просмотреть на веб-странице каждой статьи. Будучи абсолютным новичком в программировании, я не уверен, как это можно сделать, кроме как вручную. Существуют ли какие-либо коды, которые я мог бы использовать на R или на любых других платформах для непосредственного извлечения данных с веб-страниц без необходимости загрузки всех статей?Сбор данных онлайн

ответ

1

rvest - это действительно хороший пакет R для утилизации общих веб-данных. Это может быть почти все, что питонные библиотеки Beautiful Soup или Scrapy делать.

XML - это еще один пакет, который вы можете использовать для ломания в Интернете.

Для утилизации Twitter вы можете использовать пакет twitteR и для Facebook Rfacebook.

Используйте RTidyHTML пакет для исправления ошибок в HTML.

 Смежные вопросы

  • Нет связанных вопросов^_^