Любые инструменты могут помочь распознать шаблон распределения данных, а затем принять решение о выборе алгоритмов ML?Как сделать исследование данных перед выбором любого алгоритма машинного обучения
ответ
Во-первых, вы должны понимать Машиноведение как поле и иметь некоторое понимание его подполей. Если вы не интуитивно понимаете свои инструменты, вы не сможете определить, когда их использовать.
Идея, о которой вы говорите, называется поисковым анализом данных, и она может быть очень доступной, если вы подумаете об этом правильно. Подумайте об этом с точки зрения научного метода:
Прежде всего, просмотрите данные и любую документацию об этом.
Затем придите к некоторым гипотезам о шаблонах, которые могут существовать.
Основываясь на вашем понимании ML, мозговой штурм несколько подходов, которые могут дать некоторое представление о ваших гипотезах. Например, если вы видите, что предлагаемое зависимое значение может иметь несколько различных значений, у вас есть проблема классификации, и на основе ваших входных данных вы должны выбрать подходящий подход.
Инструменты, которые могут оказаться полезными, многочисленны, но хорошим началом может быть язык программирования R или Python. Оба являются очень сильными инструментами для научных исследований. R имеет большую кривую обучения, но построена с учетом данных. С другой стороны, Python очень легко подобрать, но у вас есть больше возможностей сделать это в отношении библиотек DL и библиотек данных. С Python загляните в Pandas для CSV и обработки данных, и Tensorflow, Theano или Scikit-Learn для анализа данных и ML.
Надеюсь, это поможет!
Спасибо! BTW Я буду исследовать Apache Zeppelin – Grant