Я немного запутался в классификации зависимых и независимых переменных в моем наборе данных, на которых мне нужно создать модель для прогнозирования. Любые идеи или инструкции будут очень полезны здесь. Предположим, что в моем наборе данных имеется 40 переменных. В этом случае было бы очень сложно классифицировать переменные как независимые или зависимые. Существуют ли какие-либо тесты на python, которые могут помочь нам идентифицировать их?Статистика: Как определить зависимые и независимые переменные в моем наборе данных?
ответ
В любом данном наборе данных обозначение переменных как зависимых или независимых произвольно - нет основополагающей причины, по которой один столбец должен быть независимым, а другой должен быть зависимым.
При этом обычно принято говорить, что «причины» являются независимыми переменными, а «эффекты» являются зависимыми переменными. Но это дело о причинах и эффектах тоже произвольно - часто достаточно нескольких взаимодействующих переменных, причем каждый из них «вызывает» остальных, и каждый из них «затрагивается» другими.
Суть в том, что вы должны назначать зависимые и независимые в соответствии с тем, что вы пытаетесь достичь. Какая самая интересная или самая полезная переменная в ваших данных? Обычно, если этот отсутствует или имеет неизвестное значение, вам придется оценить его из других переменных. В этом случае интересной переменной является зависимая переменная, а все остальные независимы.
Вероятно, вы получите больше интереса к этому вопросу на stats.stackexchange.com.
Большое спасибо за ваше понимание этого. Фактически, тот факт, что вы заявили, что «вы должны назначать зависимые и независимые в соответствии с тем, что вы пытаетесь достичь». говорит все. AFAIK, в наборе данных будет мало переменных, которые всегда будут влиять друг на друга, и такое пренебрежение ими может привести к ошибкам в моделировании, я считаю. Есть ли какие-либо тесты, которые мы можем выполнить во время обработки данных, которые могут помочь нам вывести эту информацию? И как вы указали, я также проверю stackexchange. Еще раз спасибо. – CodeHunter
@ DYZ Нет. У меня просто было замешательство, когда я сталкивался с несколькими типами наборов данных, с которыми я столкнулся недавно. Мысль прояснить это с помощью экспертов здесь. – CodeHunter
@DYZ Ваш огорченный, hectoring тон - бессмысленная самоотвращение; Я отметил ваш комментарий как неконструктивный. Если вам непонятно, что можно с пользой сказать в этом контексте, вы можете взглянуть на мой ответ ниже. –