(также прочитать комментарии и будет включать в себя содержание в моем ответе)
Из того, что я прочитал между строк, что вы хотите использовать Deep сети в условиях передачи обучения. Однако это не будет основано на деревьях решений. http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf
Есть много элементов в вашем вопросе:
1.) алгоритмы машинного обучения, в целом, не заботятся об источнике набора данных. Таким образом, вы можете комбинировать алгоритмы обучения с 20 различными наборами данных и использовать их все. Тем не менее, данные должны иметь одну и ту же основную концепцию (за исключением случая передачи обучения, см. Ниже). Это означает: если вы комбинируете данные о кошках/собаках с данными счетов, это не сработает или усложнит алгоритмы. По крайней мере, все входные функции должны быть идентичными (существуют исключения), например, сложно комбинировать изображения с текстом.
2.) с маркировкой/немеченой маркировкой: Два важных термина: набор данных представляет собой набор точек данных с фиксированным числом измерений. Datapoint i можно описать как {Xi1, .... Xin}, где каждый Xi может быть, например, пикселем. Метка Yi из другого домена, например, кошек и собак
3.) неконтролируемое обучение данные без каких-либо меток. (У меня есть ощущение, что это не то, что вы хотите.
4.) Полуостров Обучение: Идея заключается в том, что вы объединяете данные, в которых у вас есть метки с данными без ярлыков. В основном у вас есть набор изображений, обозначенных как кошки и собаки {Xi1, .., Xin, Yi} и второй набор, содержащий изображения с кошками/собаками, но без надписей {Xj1, ..., Xjn}. Алгоритм может использовать эту информацию для создания лучших классификаторов, поскольку немаркированные данные предоставляют информацию о том, как выглядят изображения в целом.
3.) перевод обучения (я думаю, что это самое близкое к тому, что вы хотите). Идея заключается в том, что вы предоставляете набор данных о кошках и собаках и изучаете классификатор. Затем вы хотите обучить классификатор изображениями кошек/собак/хомяков. Обучению не нужно начинать с нуля, но можно использовать кошки/собаки классификатор сходиться гораздо быстрее
4.) поколению особенности/особенности конструкции Идея заключается в том, что Algoritm узнает такие функции, как «глаза». Эти функции используются на следующем этапе для изучения классификатора. В основном я знаю об этом в контексте глубокое обучение. Там, где алгоритм изучает на первом этапе понятия, такие как ребра и строит все более сложные функции, такие как лица, нетерпимые к кошкам, он может описывать такие вещи, как «человек на слоне». Это в сочетании с обучением передаче, вероятно, то, что вы хотите. Однако глубокое обучение основано на Нереальные сети, за некоторыми исключениями.
5.) обнаружение outlier вы предоставляете набор данных кошек/собак в качестве известных изображений. Когда вы предоставляете классификатор кошек/собак/хомяков. Классификатор сообщает вам, что он никогда раньше не видел что-то вроде хомяка.
6.) активное обучение Идея состоит в том, что вы не предоставляете ярлыки для всех примеров (точки данных) заранее, но чтобы алгоритмы попросили вас наметить определенные точки данных. Таким образом, вам нужно маркировать гораздо меньше данных.
Вы должны быть более конкретными. Как именно вы хотите объединить неконтролируемые и контролируемые методы? –
Я хочу найти, если кто-то пробовал ЛЮБОЙ метод комбинирования двух с целью ** создать алгоритм, который может обрабатывать множество наборов данных ** без необходимости «ложной подачи» каждого из них на машину. Обычно с ML (как я понимаю) ученые-данные должны определять каждую отдельную переменную в наборе данных, чтобы затем алгоритм мог использовать эти атрибуты/переменные для классификации данных для будущего использования. –
В принципе, случайные леса могут обрабатывать любое количество различных наборов данных. Вам просто нужны функции и метки для прогнозирования. Для неконтролируемых методов вам все еще нужны функции. Я не знаю, что вы имеете в виду с вашим вопросом. –