2015-06-23 3 views
1

Это мое описание проблемы:.Работа с неточной (неправильного) набора данных

«По данным обследования по доходам домохозяйств и благосостояния, мы должны выяснить, верхние 10% домохозяйств с наиболее доходов и расходов, однако , мы знаем, что эти собранные данные ненадежны из-за многих искажений. Несмотря на эти искажения, у нас есть некоторые функции в наборе данных, которые, безусловно, надежны. Но эти определенные функции - лишь небольшая часть информации для каждого домашнего богатства ».

Ненадежные данные означают, что домохозяйства лгут правительству. Эти домохозяйства неправильно истолковывают свои доходы и богатства, чтобы несправедливо получить больше государственных услуг. Поэтому эти мошеннические заявления в исходных данных приведут к неправильным результатам и шаблонам.

Теперь у меня есть ниже вопросы:

  • Как мы должны иметь дело с ненадежными данными в науке данных?
  • Есть ли способ выяснить эти искажения, а затем сообщить лучшие 10% богатых людей с лучшей точностью, используя алгоритмы машинного обучения? -Как мы можем оценить наши ошибки в этом исследовании? Поскольку у нас есть немеченый набор данных, я должен искать методы маркировки? Или я должен использовать неконтролируемые методы? Или я должен работать с полуконтролируемыми методами обучения?
  • Есть ли какая-либо идея или приложение в Machine Learning, которое пытается улучшить качество собранных данных?

Просьба представить мне любые идеи или рекомендации, которые могут помочь мне в этом вопросе.

Заранее спасибо.

+0

Не могли бы вы добавить еще некоторые особенности этой проблемы? Можете ли вы просто разместить крошечный образец своих данных. Еще лучше, также отправьте большую выборку своих данных на dropbox. Вы получаете отдачу от сообществ SO и DS, потому что вы говорите в общих чертах. Поэтому ответы, которые вы получите, будут общими. Никому не помогают: Q: «Могу ли я улучшить данные путем вменения?» A: «Да, вы можете с помощью стандартных методов вменения». – AN6U5

+0

Я дам вам большой образец за несколько дней. Надеюсь, это поможет ... Спасибо – Ardeshir

ответ

5

Q: Как мы должны иметь дело с ненадежными данными в науке данных

A: Используйте функцию инженерии, чтобы исправить недостоверные данные (сделать некоторые преобразования на ненадежных данных, чтобы сделать его надежным) или падение их полностью - плохие черт могли значительно снизить качество модели

Вопрос: Есть ли способ выяснить эти ошибки, а затем сообщить лучшие 10% богатых людей с лучшей точностью, используя алгоритмы машинного обучения?

A: Алгоритмы ML - это не волшебные палочки, они ничего не могут понять, если вы не скажете им, что вы ищете. Можете ли вы описать, что означает «ненадежный»? Если да, вы можете, как я уже упоминал, использовать конструкторские возможности или написать код, который будет фиксировать данные. В противном случае алгоритм ML не сможет вам помочь, без описания того, что именно вы хотите достичь.

Вопрос: Есть ли какие-либо идеи или приложения в Machine Learning, которые пытаются улучшить качество собранных данных?

A: Я так не думаю, потому что сам вопрос слишком открытый. Что означает «качество данных»?

Вообще, вот несколько вещей, которые для вас рассмотреть:

1) Потратьте некоторое время на прибегая к помощи особенность инженерных руководств. Они рассказывают о том, как подготовить ваши данные для вас алгоритмы ML, уточнить их, исправить. Хорошие данные с хорошими функциями значительно увеличивают результаты.

2) Вам не нужно использовать все функции из исходных данных. Некоторые из особенностей исходного набора данных бессмысленны, и вам не нужно их использовать. Попробуйте запустить ускоритель градиента или случайный классификатор леса из scikit-learn на вашем наборе данных для выполнения классификации (или регрессии, если вы выполняете регрессию). Эти алгоритмы также оценивают важность каждой функции исходного набора данных. Часть ваших функций будет иметь крайне низкое значение для классификации, поэтому вы можете полностью отказаться от них или попытаться объединить неважные функции вместе, чтобы как-то сделать что-то более важное.

+0

Спасибо за ваше время и ответ, Максим. Я понимаю, что ML делает именно то, что мы хотим. Таким образом, я ищу идею, которая помогает мне объяснить мою проблему, которая разрешима ML. – Ardeshir

+0

Ненадежные данные означают, что домохозяйства лгут правительству. Эти домохозяйства неправильно истолковывают свои доходы и богатства, чтобы несправедливо получить больше государственных услуг. Поэтому эти мошеннические заявления в исходных данных приведут к неправильным результатам и шаблонам. – Ardeshir

+0

Хммм ... Ну, если мошенничество действительно не массивное, это не приведет к проблемам с алгоритмом ML. Большинство алгоритмов ML не требуют, чтобы ваши данные были на 100% понятны, малый процент аномалий не нарушал их. Таким образом, вы, вероятно, можете просто игнорировать плохие данные. С другой стороны, вы можете использовать методы статистики для проверки своих данных и, возможно, идентифицировать аномалии –

 Смежные вопросы

  • Нет связанных вопросов^_^