Недавно я наткнулся на этот термин, но на самом деле понятия не имею, о чем он говорит. Я искал в Интернете, но с небольшим усилением. Спасибо.Что такое загруженные данные в интеллектуальном анализе данных?
ответ
Если у вас недостаточно данных для обучения вашего алгоритма, вы можете увеличить размер своего тренировочного набора (равномерно), произвольно подбирать предметы и копировать их (с заменой).
В процессе машинного обучения самонастройка является итерационным обучением на известном множестве. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
Возьмите образец времени, которое вы просыпаетесь по субботам. В некоторые пятничные вечера у вас есть слишком много напитков, поэтому вы просыпаетесь рано (но возвращайтесь спать). В другие дни вы просыпаетесь в обычное время. В другие дни вы спите в
Вот результаты:.
[3,1, 4,8, 6,3, 6,4, 6,6, 7,3, 7,5, 7,7, 7,9, 10,1]
Что такое среднее время, ты просыпаешься?
Ну, это 6,8 (час или 6:48). Прикосновение рано для меня.
Насколько хорошо предсказано, когда вы проснетесь в следующую субботу? Можете ли вы количественно определить, насколько вы ошибаетесь?
Это довольно маленький образец, и мы не уверены в распределении основного процесса, поэтому неплохо было бы использовать стандартные параметрические статистические методы и кинжал ;.
Почему мы не берем случайный образец нашего образца и не вычисляем среднее значение и не повторяем это? Это даст нам оценку того, насколько плохи наши оценки.
Я сделал это несколько раз, и среднее было между 5,98 и 7,8
Это называется самозагрузки, и он был впервые упомянут Брэдли Эфрона в 1979 г.
Вариант называется jackknife, где вы пробуете все, кроме одного вашего набора данных, возьмите среднее и повторите. Средство для ножа - 6,8 (то же, что и среднее арифметическое) и составляет от 6,4 до 7,2.
Другой вариант называется k-fold cross-validation, где вы (в случайном порядке) разбиваете свой набор данных на k равных по размеру разделов, вычисляете среднее значение всех, кроме одного раздела, и повторяете k раз. 5-кратное среднее значение перекрестной проверки составляет 6,8 и составляет от 4 до 9.
& dagger; Это распределение действительно нормальное. 95% -ный доверительный интервал в среднем составляет от 5,43 до 8,11, достаточно близко, но больше, чем среднее значение бутстрапа.
Любые критические документы/мысли о возможном уклоне, введенном при загрузке? –
Я бы нашел время, чтобы прочитать оригинал: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –
Не очень полезно просто предоставить ссылку на википедию. это довольно легко найти по своему усмотрению :) –