Это мое описание проблемы:.Работа с неточной (неправильного) набора данных
«По данным обследования по доходам домохозяйств и благосостояния, мы должны выяснить, верхние 10% домохозяйств с наиболее доходов и расходов, однако , мы знаем, что эти собранные данные ненадежны из-за многих искажений. Несмотря на эти искажения, у нас есть некоторые функции в наборе данных, которые, безусловно, надежны. Но эти определенные функции - лишь небольшая часть информации для каждого домашнего богатства ».
Ненадежные данные означают, что домохозяйства лгут правительству. Эти домохозяйства неправильно истолковывают свои доходы и богатства, чтобы несправедливо получить больше государственных услуг. Поэтому эти мошеннические заявления в исходных данных приведут к неправильным результатам и шаблонам.
Теперь у меня есть ниже вопросы:
- Как мы должны иметь дело с ненадежными данными в науке данных?
- Есть ли способ выяснить эти искажения, а затем сообщить лучшие 10% богатых людей с лучшей точностью, используя алгоритмы машинного обучения? -Как мы можем оценить наши ошибки в этом исследовании? Поскольку у нас есть немеченый набор данных, я должен искать методы маркировки? Или я должен использовать неконтролируемые методы? Или я должен работать с полуконтролируемыми методами обучения?
- Есть ли какая-либо идея или приложение в Machine Learning, которое пытается улучшить качество собранных данных?
Просьба представить мне любые идеи или рекомендации, которые могут помочь мне в этом вопросе.
Заранее спасибо.
Не могли бы вы добавить еще некоторые особенности этой проблемы? Можете ли вы просто разместить крошечный образец своих данных. Еще лучше, также отправьте большую выборку своих данных на dropbox. Вы получаете отдачу от сообществ SO и DS, потому что вы говорите в общих чертах. Поэтому ответы, которые вы получите, будут общими. Никому не помогают: Q: «Могу ли я улучшить данные путем вменения?» A: «Да, вы можете с помощью стандартных методов вменения». – AN6U5
Я дам вам большой образец за несколько дней. Надеюсь, это поможет ... Спасибо – Ardeshir