2015-02-10 6 views
1

Приложения нейронной сети, которые я видел, всегда изучают веса их входов и используют фиксированные «скрытые слои».Как называются следующие типы нейронных сетевых методов?

Но я задаюсь вопрос о следующих методах:

1) фиксированных входах, но скрытые слои уже не фиксированы, в том смысле, что функции ввода их вычисления могут быть переделаны (узнал)

2) фиксированные входы, но скрытые слои больше не фиксированы в том смысле, что, хотя у них есть кластеры, которые вычисляют фиксированные функции (умножение, добавление и т. Д.), Как ALU в процессоре или графическом процессоре) их входов , могут быть изучены веса соединений между ними и между ними и входом (это должно каким-то образом быть эквивалентно 1))

Они могут использоваться для моделирования систем, для которых мы знаем входы и выходные данные, а не как входные данные преобразуются в выход (выясняя, что находится внутри «черного ящика»). Существуют ли такие методы, и если да, то что они называются?

+0

Для разъяснения: В 1) вы имеете в виду передаточную функцию в качестве обучаемой функции? Для 2) я не вижу ничего особенного (кроме частей, которые вы берете из 1)). Ваша описанная цель изучения функции, которая отображает входные данные -> вывод для известных входов, - это что-то, что «нормальная» нейронная сеть уже способна (например, XOR). Существует множество методов для «определения внутренней части черного ящика». Сеть, которую вы описываете, не будет объяснять больше, чем существующие модели. Поэтому я пока не вижу выгоды для этой цели. – runDOSrun

+0

Да, в 1) Я имел в виду передаточную функцию (каждый нейрон или кластер нейронов мог развивать свою собственную функцию передачи, поскольку обучение продолжается). Чтобы быть точным, «известными» входами я имел в виду точно знать, что происходит (входы И их относительные силы), но почти не имеет модели того, как ввод преобразуется в выход (вы не знаете, добавляются или умножаются входы друг на друга , и т. д.). Вы говорите, что эти два метода не используются (они казались мне очевидными вещами, чтобы попробовать с нейронными сетями, но если их никто не использует, они, вероятно, были уступают другим методам)? – Bubba

+0

P.S. Я знаю, что нормальная нейронная сеть может в принципе моделировать любую функцию, независимо от того, насколько вигглист, но у вас должно быть представление о том, сколько нейронов и слоев вам понадобится. Мне кажется, что нейронные сети с переменными передаточными функциями могут быть более гибкими в этом отношении (хотя вам, конечно, по-прежнему необходимо определенное количество проблем, минимальное количество нейронов). Интуитивно я думаю, что он также предоставит больше информации о лежащей в основе математике проблемы, которую вы изучаете (вы можете сразу обнаружить, что ваш черный ящик использует очень простую функцию), но я могу быть очень неправ. – Bubba

ответ

2

Для части (1) вашего вопроса есть несколько относительно недавних приемов, которые приходят на ум.

Первый - это тип слоя с обратной связью, называемый «maxout», который вычисляет кусочно-линейную выходную функцию своих входов.

Рассмотрим традиционный нейронный сетевой блок с входами d и линейной передаточной функцией. Мы можем описать выход этого устройства как функцию его ввода z (вектор с элементами d) как g(z) = w z, где w - вектор с весовыми значениями d.

В блоке maxout, выход блока описывается как

g(z) = max_k w_k z 

, где w_k является вектором с d весовых значений, и есть k такие весовые векторы [w_1 ... w_k]за единицу. Каждый из весовых векторов в модуле maxout вычисляет некоторую линейную функцию входа, а max объединяет все эти линейные функции в одну выпуклую, кусочно-линейную функцию. Индивидуальные весовые векторы могут быть изучены сетью, так что на самом деле каждое линейное преобразование учится моделировать определенную часть ввода (z).

Подробнее о сетях maxout вы можете узнать по адресу http://arxiv.org/abs/1302.4389.

Второй метод, который был недавно разработан, - это «параметрическое реле». В этом типе устройства все нейроны в сетевом слое вычисляют выход g(z) = max(0, w z) + a min(w z, 0) по сравнению с более традиционной выпрямленной линейной единицей, которая вычисляет g(z) = max(0, w z). Параметр a совместно используется для всех нейронов в слое в сети и изучается вместе с весовым вектором w.

Техника прелу описывается http://arxiv.org/abs/1502.01852.

Было показано, что устройства Maxout работают хорошо для ряда задач классификации изображений, особенно в сочетании с отсева для предотвращения перетренировки.Неясно, являются ли параметрические единицы relu чрезвычайно полезными при моделировании изображений, но прелу-бумага действительно дает отличные результаты в отношении того, что на некоторое время считалось эталонной задачей в классификации изображений.

+0

Из того, что я понимаю на первый взгляд, методы, которые вы описываете, действительно эффективно меняют передаточные функции, как в моем 1). Я думал о том, чтобы буквально ездить на велосипеде через предопределенные функции передачи, но техника maxout кажется намного более гибкой и надежной, и я думаю, что у меня есть мой ответ (но исправьте меня, если я ошибаюсь): идея изменения передаточных функций действительно используется (так же, как я предположительно), но, конечно, гораздо более умным образом, примеры - это вариации техники Maxout, которые вы упомянули. – Bubba

+0

@Bubba Да, я бы сказал, что это точно - люди действительно смотрели на изучение передаточной функции; это всего лишь несколько недавних примеров. – lmjohns3