Я столкнулся с миром таблиц и структур данных в R перед системами РСУБД и другими системами баз данных. В R/Python довольно элегантно создавать таблицы и списки из данных (CSV или других форматов), а затем делать программные операции с данными.Реляционная база данных по сравнению с кадрами данных R/Python
В прошлом году я посетил курс по управлению базами данных и узнал все о структурированных и неструктурированных базах данных. Я также заметил, что нормой является передача данных из нескольких источников данных в базы данных, а не прямое использование их в R (для удобства и дисциплины?).
Для исследовательских целей R, похоже, достаточно для соединения, добавления или даже сложных манипуляций с данными.
Вопросы, возникающие в связи с этим: Когда использовать R напрямую с помощью таких команд, как read.csv, когда использовать R, создавая базу данных и запрашивая таблицы, используя интерфейс R-SQL?
Например, если у меня есть данные с несколькими источниками, такие как (а) информация о персональном уровне (возраст, пол, привычки к курению), (б) переменные результата (например, обследования, проведенные ими в режиме реального времени), (c) Ковариационная информация (характеристики окружающей среды), (d) Ввод обработки (появление события, которое изменяет результат - ответ на съемку) (d) Информация о времени и пространстве участников, принимающих обследование
Как подойти к сбору и обработке данных в этом случае. Могут быть стандартные отраслевые процедуры, но я поставил здесь этот вопрос, чтобы понять список возможных и оптимальных подходов, которые могут принять отдельные лица и небольшая группа исследователей.
Каковы инструменты с открытым исходным кодом, которые я могу использовать для ETL и хранилища данных в моем случае? Я выполняю поиск с обработкой и хранением данных исключительно своей ответственностью в проекте вместе с анализом данных. Таким образом, основное внимание уделяется анализу данных, а не совместному использованию данных с другими. Ваше решение звучит интересно, и я должен попробовать. Я просмотрел этот сайт http://butleranalytics.com/5-free-open-source-etl-tools/ и нашел инструменты ETL с открытым исходным кодом, такие как TALEND, которые я должен попробовать. Но в конце концов анализ данных и ML можно сделать на одной электронной таблице входов и выходов, так что вы чувствуете. –
Я забыл сказать, спасибо! –
@Earnest_learner Рад ответить помогло. :) Часть причины, по которой я избегал каких-либо рекомендаций, заключается в том, что она противоречит правилам SO, которые запрашивают рекомендации по программному обеспечению и тому подобное, поскольку они склонны впадать в спам или просто быть слишком основанными на мнениях. Кроме того, у меня очень мало опыта использования инструментов ETL с открытым исходным кодом (я использую сочетание SSIS и SQL/T-SQL на SQL Server). Имейте в виду, что ETL можно сделать в коде (SQL или что-то еще). Я слышал примеры людей, использующих Python, но я не уверен, как это будет выполняться. То, что подходит (и возможно), действительно сводится к вашим конкретным обстоятельствам. –