2017-02-06 14 views
0

Я немного запутался в классификации зависимых и независимых переменных в моем наборе данных, на которых мне нужно создать модель для прогнозирования. Любые идеи или инструкции будут очень полезны здесь. Предположим, что в моем наборе данных имеется 40 переменных. В этом случае было бы очень сложно классифицировать переменные как независимые или зависимые. Существуют ли какие-либо тесты на python, которые могут помочь нам идентифицировать их?Статистика: Как определить зависимые и независимые переменные в моем наборе данных?

+0

@ DYZ Нет. У меня просто было замешательство, когда я сталкивался с несколькими типами наборов данных, с которыми я столкнулся недавно. Мысль прояснить это с помощью экспертов здесь. – CodeHunter

+1

@DYZ Ваш огорченный, hectoring тон - бессмысленная самоотвращение; Я отметил ваш комментарий как неконструктивный. Если вам непонятно, что можно с пользой сказать в этом контексте, вы можете взглянуть на мой ответ ниже. –

ответ

1

В любом данном наборе данных обозначение переменных как зависимых или независимых произвольно - нет основополагающей причины, по которой один столбец должен быть независимым, а другой должен быть зависимым.

При этом обычно принято говорить, что «причины» являются независимыми переменными, а «эффекты» являются зависимыми переменными. Но это дело о причинах и эффектах тоже произвольно - часто достаточно нескольких взаимодействующих переменных, причем каждый из них «вызывает» остальных, и каждый из них «затрагивается» другими.

Суть в том, что вы должны назначать зависимые и независимые в соответствии с тем, что вы пытаетесь достичь. Какая самая интересная или самая полезная переменная в ваших данных? Обычно, если этот отсутствует или имеет неизвестное значение, вам придется оценить его из других переменных. В этом случае интересной переменной является зависимая переменная, а все остальные независимы.

Вероятно, вы получите больше интереса к этому вопросу на stats.stackexchange.com.

+0

Большое спасибо за ваше понимание этого. Фактически, тот факт, что вы заявили, что «вы должны назначать зависимые и независимые в соответствии с тем, что вы пытаетесь достичь». говорит все. AFAIK, в наборе данных будет мало переменных, которые всегда будут влиять друг на друга, и такое пренебрежение ими может привести к ошибкам в моделировании, я считаю. Есть ли какие-либо тесты, которые мы можем выполнить во время обработки данных, которые могут помочь нам вывести эту информацию? И как вы указали, я также проверю stackexchange. Еще раз спасибо. – CodeHunter