Что такое загруженные данные в интеллектуальном анализе данных?

Недавно я наткнулся на этот термин, но на самом деле понятия не имею, о чем он говорит. Я искал в Интернете, но с небольшим усилением. Спасибо.Что такое загруженные данные в интеллектуальном анализе данных?

источник

2010-09-16 Kevin

Если у вас недостаточно данных для обучения вашего алгоритма, вы можете увеличить размер своего тренировочного набора (равномерно), произвольно подбирать предметы и копировать их (с заменой).

источник

2010-09-18 14:02:14

В процессе машинного обучения самонастройка является итерационным обучением на известном множестве. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

источник

2010-09-16 09:35:21 leonm

Не очень полезно просто предоставить ссылку на википедию. это довольно легко найти по своему усмотрению :) –

Возьмите образец времени, которое вы просыпаетесь по субботам. В некоторые пятничные вечера у вас есть слишком много напитков, поэтому вы просыпаетесь рано (но возвращайтесь спать). В другие дни вы просыпаетесь в обычное время. В другие дни вы спите в

Вот результаты:.

[3,1, 4,8, 6,3, 6,4, 6,6, 7,3, 7,5, 7,7, 7,9, 10,1]

Что такое среднее время, ты просыпаешься?

Ну, это 6,8 (час или 6:48). Прикосновение рано для меня.

Насколько хорошо предсказано, когда вы проснетесь в следующую субботу? Можете ли вы количественно определить, насколько вы ошибаетесь?

Это довольно маленький образец, и мы не уверены в распределении основного процесса, поэтому неплохо было бы использовать стандартные параметрические статистические методы и кинжал ;.

Почему мы не берем случайный образец нашего образца и не вычисляем среднее значение и не повторяем это? Это даст нам оценку того, насколько плохи наши оценки.

Я сделал это несколько раз, и среднее было между 5,98 и 7,8

Это называется самозагрузки, и он был впервые упомянут Брэдли Эфрона в 1979 г.

Вариант называется jackknife, где вы пробуете все, кроме одного вашего набора данных, возьмите среднее и повторите. Средство для ножа - 6,8 (то же, что и среднее арифметическое) и составляет от 6,4 до 7,2.

Другой вариант называется k-fold cross-validation, где вы (в случайном порядке) разбиваете свой набор данных на k равных по размеру разделов, вычисляете среднее значение всех, кроме одного раздела, и повторяете k раз. 5-кратное среднее значение перекрестной проверки составляет 6,8 и составляет от 4 до 9.

& dagger; Это распределение действительно нормальное. 95% -ный доверительный интервал в среднем составляет от 5,43 до 8,11, достаточно близко, но больше, чем среднее значение бутстрапа.

источник

2010-11-30 08:22:22

Любые критические документы/мысли о возможном уклоне, введенном при загрузке? –

Я бы нашел время, чтобы прочитать оригинал: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

Что такое загруженные данные в интеллектуальном анализе данных?

ответ

Смежные вопросы