2016-04-06 6 views
1

Я надеюсь, что кто-то с гораздо большим знанием машинного обучения может помочь мне здесь. Я читал примеры регрессии и классификации, и я всегда возвращаюсь к вопросу: «Какая разница между тем, что делает этот алгоритм, и что будет делать стандартный статистический анализ».Что такое «прогностический» элемент машинного обучения

В частности, ни один из примеров, которые я прочитал, по-видимому, не обсуждает прогностический элемент. Например, при рассмотрении линейной регрессии статьи обычно объясняют концепцию создания «наилучшего соответствия» - комбинации линейного уравнения, а затем итерации функции стоимости до тех пор, пока она не достигнет минимума. Разумеется, во многих случаях акцент делается на «наборе учебных данных». Нет проблем ... но обычно это заканчивается. В этот момент я не вижу разницы между указанным выше и стандартным способом проведения статистического анализа в наборе данных, который предположительно имел бы линейную зависимость. Предположительно, будущие значения здесь «предсказаны» из уравнения, которое было получено, когда функция стоимости сходилась на минимуме - опять же, похоже, здесь не так много «обучения», как это именно то, что было бы сделано в обычном случае ,

После долгого вдумчивого введения ... то, что я пытаюсь спросить, как алгоритм узнал из исходных данных обучения? и как этот набор учебных пособий помогает с будущими наборами данных? (опять же, это то, где я немного теряюсь - мне кажется, что вы бы дали ему новый набор данных и выполнили ту же задачу минимизации функции затрат, однако на этот раз у вас есть лучший «исходный» момент, но все ваши знания действительно исходят из того, что вы уже «знали» о наборе данных, то есть о том, что вы принимали линейную зависимость).

Надеюсь, это имеет смысл - это, безусловно, недостаток понимания, но я надеюсь, что кто-то может засунуть меня в правильном направлении.

Спасибо!

+0

Основной момент состоит в том, что большинство алгоритмов не просто аппроксимируют линейную функцию, а некоторую общую функцию. Некоторым подходам даже не нужна параметрируемая функция (например, деревья регрессии). В конце концов, машинное обучение * - это статистический анализ. Однако из-за пространственного функционального пространства основные подходы обычно не работают. –

+0

Конечно, но для меня это звучит как численное решение. Я не совсем уверен, откуда берется аспект обучения. Как будущее предсказание зависит от данных обучения, которым оно подвергалось: i.e, если я использую 15 различных наборов тренировок, а не 1, улучшает ли это предсказуемость моего алгоритма, если да, то как это сделать? Единственный способ, которым я могу себе представить, что это лучше, состоит в том, что если все наборы данных имеют хороший стандарт, то каждый раз, когда вы используете обучающий набор, вы можете начать с лучшего набора начальных условий для следующего набора (ближе к глобальная мин.) - оптимизация. –

+0

«Обучение» в машинном обучении - это то, что статистик назвал бы выводом. Основное различие между дисциплинами является скорее философским: практикующие компьютерные практики больше заботятся о прогностической точности (см., Например, глубокие нейронные сети), статистиков гораздо больше беспокоит интерпретируемость, проверка модели и т. Д. Многие методы идентичны –

ответ

3

Вы правы, нет никакой разницы. Линейная регрессия - это чисто статистический метод, и «подгон», вероятно, будет более точным, чем «обучение» в этом случае. Но опять же, это, как правило, только первая лекция по этому вопросу. Там много подходов, где различия намного яснее, например SVM. Существуют также подходы, в которых «учебный» аспект гораздо яснее, например, использование обучения повторному введению в играх, где вы действительно можете увидеть, как ваша система улучшает свою работу с опытом.

В любом случае, основной предмет машинного обучения - это обучение на примерах. Вам предоставляется список из 100 пациентов, а также артериальное давление, возраст, уровень холестерина и т. Д., И для каждого из них вам сообщают, есть ли у них сердечная болезнь или нет. Затем вам дают пациента, которого вы раньше не видели. У него сердечная болезнь? Большинство людей называют это предсказание. Вы, возможно, предпочтете назвать это подходящим, или что-нибудь еще. Но дело в том, что он работает нормально.

Тем не менее, предмет остается тесно привязанным к статистике, и действительно, вам нужно сделать некоторые предположения (в большей или меньшей степени, в зависимости от алгоритма) относительно базовой функции. Это не идеально, но во многих случаях это лучшее, что у нас есть, поэтому я бы сказал, что это стоит изучать. Если вы начинаете сейчас, есть отличный онлайн-курс, «Статистическое обучение» Стэнфорда, в котором речь идет о предмете с вашей точки зрения.

+0

Спасибо за очищение от этого - так что, если я не ошибаюсь, «прогностический» элемент исходит из того факта, что у вас есть исторические данные, и вы смогли определить некоторую корреляцию о том, какой набор показателей делает у кого-то сердечную болезнь. В случае вашего примера, если у пациентов есть определенное кровяное давление, возраст и холестерин, это обычно связано с сердечными заболеваниями (считайте это истинным). Следовательно, когда вы даете новый набор данных (от пациента), если эти показатели соответствуют порогу, тогда также определяется, что у них сердечная болезнь - это предсказания, о которых я говорил? –

+0

Как вы говорите - я думаю, мне нужно испытать некоторые из более ясных примеров. Поскольку я только испытал контролируемые методы, которые мне кажутся не все, что отделяется от более «стандартного» статистического анализа. –

+1

Это не совсем «порог», это комбинация входов, которые могут образовывать какую-либо функцию. Кроме того, не придумывайте примеры как «исторические» и «новые», а скорее «известные» и «неизвестные». Прогнозирование не обязательно подразумевает «будущее», а скорее «образованное предположение». Во всяком случае, в классификации все станет понятнее, что является гораздо более важным вопросом, чем регрессия в машинном обучении. Я действительно предлагаю взглянуть на курс. PS: В целом, если вы чувствуете, что на ваш вопрос был дан ответ, примите/отпустите ответы, чтобы облегчить другим пользователям их поиск. –