Нужно ли всегда удалять столбцы для горячего кодирования, чтобы предотвратить мультиколлинеарность? В решении здесь (https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896) он упоминаетmulticollinearity для однократного кодирования
@Kevin Чанга Вам нужно удалить один столбец фиктивных переменных для избежать состояния мультиколлинеарности. Это состояние очень высоких корреляций между столбцами (независимые переменные) ; что означает, что можно предсказать из других. Следовательно, это тип нарушения данных, и если они имеются в данных, то статистические данные, сделанные об этих данных, могут быть ненадежными.
В растворах здесь, там не питание для мультиколлинеарности https://www.kaggle.com/sharmasanthosh/allstate-claims-severity/exploratory-study-on-ml-algorithms
Могу ли я знать, действительно ли это необходимо, или в какой ситуации мы определены, чтобы удовлетворить это?
Why Downvote? Не могли бы вы рассказать мне, что случилось? – Aaron