0

Мне любопытно, проводились ли исследования в случайных лесах, которые объединяются без надзора с контролируемым обучением, позволяя одному алгоритму находить шаблоны и работать с несколькими различными наборами данных , Я изо всех сил старался найти исследование по этому вопросу и пришел к пустым. Может кто-то указать мне верное направление?Случайные алгоритмы леса, способные переключать наборы данных

Примечание: Я уже задавал этот вопрос на форуме по научным исследованиям данных, но в основном это мертвый форум, поэтому я пришел сюда.

+1

Вы должны быть более конкретными. Как именно вы хотите объединить неконтролируемые и контролируемые методы? –

+0

Я хочу найти, если кто-то пробовал ЛЮБОЙ метод комбинирования двух с целью ** создать алгоритм, который может обрабатывать множество наборов данных ** без необходимости «ложной подачи» каждого из них на машину. Обычно с ML (как я понимаю) ученые-данные должны определять каждую отдельную переменную в наборе данных, чтобы затем алгоритм мог использовать эти атрибуты/переменные для классификации данных для будущего использования. –

+1

В принципе, случайные леса могут обрабатывать любое количество различных наборов данных. Вам просто нужны функции и метки для прогнозирования. Для неконтролируемых методов вам все еще нужны функции. Я не знаю, что вы имеете в виду с вашим вопросом. –

ответ

1

(также прочитать комментарии и будет включать в себя содержание в моем ответе)

Из того, что я прочитал между строк, что вы хотите использовать Deep сети в условиях передачи обучения. Однако это не будет основано на деревьях решений. http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf

Есть много элементов в вашем вопросе:

1.) алгоритмы машинного обучения, в целом, не заботятся об источнике набора данных. Таким образом, вы можете комбинировать алгоритмы обучения с 20 различными наборами данных и использовать их все. Тем не менее, данные должны иметь одну и ту же основную концепцию (за исключением случая передачи обучения, см. Ниже). Это означает: если вы комбинируете данные о кошках/собаках с данными счетов, это не сработает или усложнит алгоритмы. По крайней мере, все входные функции должны быть идентичными (существуют исключения), например, сложно комбинировать изображения с текстом.

2.) с маркировкой/немеченой маркировкой: Два важных термина: набор данных представляет собой набор точек данных с фиксированным числом измерений. Datapoint i можно описать как {Xi1, .... Xin}, где каждый Xi может быть, например, пикселем. Метка Yi из другого домена, например, кошек и собак

3.) неконтролируемое обучение данные без каких-либо меток. (У меня есть ощущение, что это не то, что вы хотите.

4.) Полуостров Обучение: Идея заключается в том, что вы объединяете данные, в которых у вас есть метки с данными без ярлыков. В основном у вас есть набор изображений, обозначенных как кошки и собаки {Xi1, .., Xin, Yi} и второй набор, содержащий изображения с кошками/собаками, но без надписей {Xj1, ..., Xjn}. Алгоритм может использовать эту информацию для создания лучших классификаторов, поскольку немаркированные данные предоставляют информацию о том, как выглядят изображения в целом.

3.) перевод обучения (я думаю, что это самое близкое к тому, что вы хотите). Идея заключается в том, что вы предоставляете набор данных о кошках и собаках и изучаете классификатор. Затем вы хотите обучить классификатор изображениями кошек/собак/хомяков. Обучению не нужно начинать с нуля, но можно использовать кошки/собаки классификатор сходиться гораздо быстрее

4.) поколению особенности/особенности конструкции Идея заключается в том, что Algoritm узнает такие функции, как «глаза». Эти функции используются на следующем этапе для изучения классификатора. В основном я знаю об этом в контексте глубокое обучение. Там, где алгоритм изучает на первом этапе понятия, такие как ребра и строит все более сложные функции, такие как лица, нетерпимые к кошкам, он может описывать такие вещи, как «человек на слоне». Это в сочетании с обучением передаче, вероятно, то, что вы хотите. Однако глубокое обучение основано на Нереальные сети, за некоторыми исключениями.

5.) обнаружение outlier вы предоставляете набор данных кошек/собак в качестве известных изображений. Когда вы предоставляете классификатор кошек/собак/хомяков. Классификатор сообщает вам, что он никогда раньше не видел что-то вроде хомяка.

6.) активное обучение Идея состоит в том, что вы не предоставляете ярлыки для всех примеров (точки данных) заранее, но чтобы алгоритмы попросили вас наметить определенные точки данных. Таким образом, вам нужно маркировать гораздо меньше данных.