Одна из вещей, которые я имею в большинстве случаев при очистке данных, - это отсутствие значений. R имеет дело с этой скважиной, используя метку «Нет данных». В python кажется, что мне придется иметь дело с масками массивов, которые, похоже, являются главной болью для настройки и, похоже, не документированы хорошо. Любые предложения по упрощению этого процесса в Python? Это становится нарушителем транзакций при переходе на Python для анализа данных. СпасибоКак вы справляетесь с отсутствующими данными с помощью numpy/scipy?
Обновление Очевидно, прошло некоторое время с тех пор, как я просмотрел методы в модуле numpy.ma. Похоже, что по крайней мере основные функции анализа доступны для маскированных массивов, а приведенные примеры помогли мне понять, как создавать маскированные маски (спасибо авторам). Я хотел бы узнать, включает ли некоторые из новых статистических методов в Python (разрабатываемых в GSoC в этом году) этот аспект и, по крайней мере, делает полный анализ ситуации.
Почему бы не использовать numpy.NaN для выявления недостающих данных? – Paul