Я пытаюсь собрать данные из 75 000 статей о сети знаний. Все данные можно просмотреть на веб-странице каждой статьи. Будучи абсолютным новичком в программировании, я не уверен, как это можно сделать, кроме как вручную. Существуют ли какие-либо коды, которые я мог бы использовать на R или на любых других платформах для непосредственного извлечения данных с веб-страниц без необходимости загрузки всех статей?Сбор данных онлайн
-3
A
ответ
1
rvest
- это действительно хороший пакет R для утилизации общих веб-данных. Это может быть почти все, что питонные библиотеки Beautiful Soup
или Scrapy
делать.
XML
- это еще один пакет, который вы можете использовать для ломания в Интернете.
Для утилизации Twitter вы можете использовать пакет twitteR
и для Facebook Rfacebook
.
Используйте RTidyHTML
пакет для исправления ошибок в HTML.