2015-06-10 7 views
0

Как выбрать размер выборки и набор образцов (для обучения и тестирования) для проблемы с бинарной классификацией, которая должна быть решена путем применения контролируемого обучения?Выбор образцов для контролируемого машинного обучения

Текущая реализация основана на 15 двоичных функциях, которые мы можем расширить до 20 или, возможно, 24 двоичных функций, чтобы улучшить показатели точности. Классификация основана на поиске в таблице решений, которую мы хотели бы заменить решением с помощью классификатора машинного обучения. Часть цели - также измерить наши текущие показатели точности.

a) Каков минимальный размер выборки для обучения под наблюдением, чтобы сбалансировать требуемую точность и стоимость? b) Как выбрать фактические образцы для использования в учебных/тестовых наборах?

Теория вычислительного обучения определяет минимальный образец, заданный пространство гипотез, желаемую вероятность хранения погрешностей ниже определенного порога. Просьба представить объяснение и возможные примеры применения формул.

Набор для обучения/испытания образца для классификации будет собран с помощью человеческого решения. Таким образом, очевидно, что есть затраты на выбор этого набора образцов. И тогда финансирование проекта становится сложнее, когда затраты и выгоды не могут быть легко списаны на бумаге.

+0

Извините, но ИМХО это сложный вопрос, который очень сильно зависит от обстоятельств. В любом случае, я не думаю, что вы найдете, что это подходящий сайт для этого. –

+0

(a) -part нуждается в дополнительном разъяснении - у вас уже есть набор данных, и вы хотите знать, насколько значительна часть обучения этого набора, или у вас нет данных и вы хотите знать, сколько вам нужно коллекционировать? Ответ на (b) -партию прост: вы должны разделить все данные как можно беспорядочно. Это дает вам ок. такое же распределение по классам как на тренировочных, так и на тестовых наборах. –

+0

(а) посвящена теории вычислительного обучения. Какую из различных формул я применяю для задачи двоичной классификации с n двоичными функциями, чтобы определить минимальный размер выборки для набора тренировок для контролируемого машинного обучения. Это с частотой ошибок epsilon и delta как вероятность того, что частота ошибок будет ниже желаемой частоты ошибок. Распределение класса 1 и класса 2 бинарного классификационного решения должно сыграть определенную роль в том, какие образцы будут загружены в набор тренировок. Как можно выбрать сам набор, а также сами образцы для n двоичных функций? – PVA

ответ

1

Нет простого способа определить минимальный размер выборки, так как нет жестких и быстрых правил относительно размеров выборки, когда дело доходит до машинного обучения. Многие классификаторы могут применяться к двоичной классификации, например. SVM, и существует ряд методов выборки, которые могут применяться в зависимости от структуры данных, базовой системы и целей анализа. Ваша ссылка на выбор самого набора несколько запутанна: спрашиваете, как определить минимальный объем данных, необходимых для построения точного классификатора? Ответ зависит от используемого классификатора и способности обучения классификатора. Кроме того, модели, обучаемые на более мелких моделях, могут не обобщаться, а также обучаться на более крупных наборах, даже если вы получаете достаточные коэффициенты ошибок, поэтому, если вас в первую очередь интересует точная классификация ранее невидимых записей, вы захотите это учитывать. Что касается выбора набора учебных образцов, это зависит от структуры данных и используемого метода выборки. Вы можете использовать методы перекрестной проверки при обучении модели из-за чрезмерной установки.