2013-03-15 2 views
1

Мне интересно, как я могу утверждать, что правильно понимаю «шум» в своих данных?Как проверить, что такое шум, какие реальные данные?

Чтобы быть более точным, возьмите примерный компонентный анализ в качестве примера, мы знаем, что в PCA, после выполнения SVD, мы можем отбросить небольшие сингулярные значения и восстановить исходную матрицу с использованием приближения низкого ранга.

Могу ли я утверждать, что было проигнорировано, действительно ли это шум в данных? Есть ли какая-либо оценочная метрика для этого?

Единственный метод, который я могу придумать, - это просто вычесть исходные данные из восстановленных данных.

Затем попытайтесь установить гауссовский над ним, увидев, что фитнес хорош.

Это обычный метод в области, подобный DSP ??

Кстати, я думаю, что в типичных задачах машинного обучения измерение будет отслеживать эффективность классификации, но поскольку я делаю чисто генеративную модель, никаких ярлыков не прилагается.

ответ

1

Лично, если вы хотите доказать эффективность снижения шума, я бы использовал оценку на основе задач. Я предполагаю, что вы делаете это с определенной целью, чтобы решить какую-то проблему? Если это так, решите задачу с оригинальной шумной матрицей и новой чистой. Если последнее работает лучше, то был отброшен шум, для целей интересующей вас задачи. Я думаю, что некоторые объективные измерения шума довольно трудно определить.

4

Как я вижу это, определение шума будет зависеть от области проблемы. Поэтому стратегия их сокращения будет различной для каждого домена.

Например, наличие шумного сигнала в таких проблемах, как классификация сейсмического образования или шумное изображение по проблеме классификации лиц, будет существенно отличаться от шума, создаваемого неправильно помеченными данными в медицинской диагностической проблеме или шуме, поскольку похожие слова с различное значение в проблеме языковой классификации для документов.

Когда шум из-за точки данных с учетом (или набор), то решение так просто, как игнорировать эти точки данных (хотя определить те данные точки большую часть времени является сложной частью)

Из вашего примера, я думаю, вы больше относитесь к случаю, когда шум встроен в функции (например, в сейсмическом примере). Иногда люди склонны предварительно обрабатывать данные с помощью фильтра уменьшения шума, например, медианного фильтра (http://en.wikipedia.org/wiki/Median_filter). Напротив, некоторые другие люди склонны уменьшать размер данных для снижения шума, и в этом сценарии используется СПС.

Обе стратегии действительны, и обычно люди пробуют оба и перекрестно проверяют их, чтобы увидеть, какой из них дал лучшие результаты.

Что вы сделали, это хорошая метрика для проверки гауссовского шума. Тем не менее, для не-гауссовского шума ваш показатель может дать вам ложные негативы (плохой фитнес, но все равно хороший шум)

+0

Спасибо за ответ, но мой вопрос действительно связан только с вашим последним абзацем, что я хочу «поймать» шум. Я думаю, что это сложно определить, как сказал Бен. – Jing