2017-02-22 29 views
0

Так что иногда мне нужно получить некоторые данные из веб-сайта, которые организуют его в DataFrame и тратят много времени на это вручную. Я пытался выяснить, как оптимизировать этот процесс, и я попытался с некоторыми подходами скребли R, но не мог сделать это правильно, и я думал, что может быть более простой способ сделать это, может кто-нибудь помочь меня с этим?Не удалось выяснить, как подойти к этому упражнению. #R scraping #extracting web data

Вымышленные упражнение:

Вот веб-страницы со странами перечисленных континентов: https://simple.wikipedia.org/wiki/List_of_countries_by_continents

Каждое название страны также ссылка, которая ведет на другую страницу (конкретной каждой страны, например https://simple.wikipedia.org/wiki/Angola).

Я хотел бы получить окончательный результат, чтобы получить кадр данных с количеством наблюдений (строк) = количество перечисленных стран и 4 переменных (количеств) в качестве идентификатора = название страны, континенте = континенте, к которому он принадлежит, язык = официальный языка (с конкретной веб-страницы стран) и населения = самый последний подсчет населения (с конкретной веб-страницы стран).

Какие шаги следует выполнить в R, чтобы иметь возможность достичь конечной рамки данных?

ответ

0

This will probably get you most of the way. Вы захотите поиграть с разными узлами и, возможно, выполните некоторые манипуляции с строкой (очистка) после того, как вы загрузите то, что вам нужно.