Я работаю над проектом по загрузке данных из файла и вычислению базовой статистики (среднее значение, дисперсия).Как убедиться, что вычисление среднего значения и дисперсии, считанное из файла, является правильным?
Файл имеет 20k строк, и каждая строка имеет 23 столбца. Файл выглядит следующим образом:
person_id range1 value1 range2 value2 ... range11 value11
person_id может или не может иметь значение в диапазоне, и то же person_id могут появляться в разных строках файла, потому что он может иметь разные значения в том же диапазоне.
Мне нужно рассчитать среднее значение и дисперсию для каждого человека в каждом диапазоне. Результат должен быть
person_id range1_mean range1_variance range2_mean range2_variance ...
Мой вопрос:
После выполнения расчета, как убедиться в том, что я не пропустить какие-либо данные, а также получить правильные результаты для среднего и дисперсии?
Я считаю, что некоторые лица (более 20) имеют разные средние значения, но та же дисперсия.
Вы можете создать тестовые примеры и убедиться, что ваш расчет соответствует их вычислению вручную. –
@Dan Getz, это невозможно сделать вручную, потому что может быть сотни значений для one person_id. Благодаря ! – user2420472