Как часть упражнения профилирования данных, я читаю листы excel в dataframes панд.pandas redefine isnull игнорировать 'NA'
df = pd.ExcelFile('file.xlsx').parse(0)
nullcounts = df.isnull().sum().to_frame('null_records')
Производит хороший кадр с нулевым числом для каждой серии в моей информационной кадре. Но если строка «NA» появляется в строке данных, я не хочу, чтобы операция isnull
возвращала True
.
Есть ли простой способ сделать это без жесткого кодирования правила для определенного столбца/dataframe?
Редактировать: Похоже, что NA в моих исходных данных игнорируются при чтении в pandas, поскольку, когда я загружаю данные и сравниваю визуально, я вижу NaN
, где в excel было NA
.
строка «NA» не будет возвращать 'true' для нулевого тестирования, как вы знаете, это вы можете опубликовать некоторые необработанные данные и код, который воспроизводит эту – EdChum
. Хорошая точка, вопрос, отредактированный выше – joshi123