1

Я изучаю нулевой метод заполнения в Kaggle в разработке функций. Некоторые игроки заполняют NA другим значением объекта.Как заполнить нулевое значение в атрибутах объекта при разработке функций?

Например, в столбе пола есть значения «мужчина», «женщина» и «NA». Метод заполняет NA другим значением объекта, например, «Middle». И после этого он обрабатывает атрибут пола без каких-либо нулей, а панды не найдут нуль.

Я хочу знать, что метод действительно влияет на производительность модели машинного обучения или хорошую конструкцию функций? Кроме того, есть ли другой хороший способ заполнить NA после того, как в наборе данных не обнаружено достоверное обнаружение?

ответ

2

Во-первых, это зависит от того, может ли ваша модель управлять NA (например, xgboost). Во-вторых, являются отсев пояснительная поведения (например, депрессивный человек, скорее всего, чтобы пропустить задание)

Существует вся литература об этом вопросы. Основные способы сделать это:

  1. Просто поместите Ряды
  2. Заполните недостающие данные с помощью замены (медиану, наиболее видел значение ...)
  3. Заполните недостающие данные и добавить некоторую ошибку это

Так вот, вы можете либо оставить его NA и использовать xgboost, падение строки или неполная поместить наиболее часто встречающееся значение между мужчиной и женщиной

несколько рекомендаций, если вы тусклый идти дальше:

  1. Постарайтесь понять, почему Данные отсутствуют
  2. Выполнить анализ чувствительности решения вы выбрали
0

Это в значительной степени зависит от ваших данных. Но все же есть несколько вещей, которые вы можете сделать и проверить, работают ли они.

1.Если немногочисленных недостающих значений по сравнению с количеством строк, лучше их отбросить.

2.Если есть большие отсутствующие значения, сделайте функцию «IsMissing» (1 для NULL 0 для других). Иногда она отлично работает.

3.Если у вас много данных, и вы как-то поняли, что эта функция действительно важна, вы можете обучить модель, чтобы предсказать Мужской/Женский, используя данные вашего поезда. Затем используйте строки значений Null в качестве тестовых данных для предскажите их ценность (мужчина/женщина).

Все о творчестве и логике. Всякая гипотеза, которую вы делаете, не работает отлично, так как вы можете видеть, что последний описанный выше метод предполагает, что значения NULL могут иметь только два значения (M/F), которые на самом деле возможно, не так.

Итак, поиграйте с другой тактикой и посмотрите, что отлично работает для ваших данных.

Надеюсь, это поможет!

 Смежные вопросы

  • Нет связанных вопросов^_^