Отсутствующие значения являются общей проблемой при анализе данных. Одна из общих стратегий заключается в том, что недостающие значения заменяются значениями, случайно выбранными из распределения существующих значений.Устранение недостающих значений путем выборки из распределения существующих
Есть ли код библиотеки Python, который удобно выполняет этот шаг предварительной обработки на фрейме данных? Насколько я вижу, модуль sklearn.preprocessing
не предлагает эту стратегию.
Вы можете использовать ['sample'] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sample.html) для этого – EdChum
statsmodels имеет MICE (в главном и 0.8 rc), который реализует предсказательное среднее совпадение, которое выбирает вмененные наблюдения от соседей, где окрестность определяется предсказательной близостью. – user333700