Как выбрать размер выборки и набор образцов (для обучения и тестирования) для проблемы с бинарной классификацией, которая должна быть решена путем применения контролируемого обучения?Выбор образцов для контролируемого машинного обучения
Текущая реализация основана на 15 двоичных функциях, которые мы можем расширить до 20 или, возможно, 24 двоичных функций, чтобы улучшить показатели точности. Классификация основана на поиске в таблице решений, которую мы хотели бы заменить решением с помощью классификатора машинного обучения. Часть цели - также измерить наши текущие показатели точности.
a) Каков минимальный размер выборки для обучения под наблюдением, чтобы сбалансировать требуемую точность и стоимость? b) Как выбрать фактические образцы для использования в учебных/тестовых наборах?
Теория вычислительного обучения определяет минимальный образец, заданный пространство гипотез, желаемую вероятность хранения погрешностей ниже определенного порога. Просьба представить объяснение и возможные примеры применения формул.
Набор для обучения/испытания образца для классификации будет собран с помощью человеческого решения. Таким образом, очевидно, что есть затраты на выбор этого набора образцов. И тогда финансирование проекта становится сложнее, когда затраты и выгоды не могут быть легко списаны на бумаге.
Извините, но ИМХО это сложный вопрос, который очень сильно зависит от обстоятельств. В любом случае, я не думаю, что вы найдете, что это подходящий сайт для этого. –
(a) -part нуждается в дополнительном разъяснении - у вас уже есть набор данных, и вы хотите знать, насколько значительна часть обучения этого набора, или у вас нет данных и вы хотите знать, сколько вам нужно коллекционировать? Ответ на (b) -партию прост: вы должны разделить все данные как можно беспорядочно. Это дает вам ок. такое же распределение по классам как на тренировочных, так и на тестовых наборах. –
(а) посвящена теории вычислительного обучения. Какую из различных формул я применяю для задачи двоичной классификации с n двоичными функциями, чтобы определить минимальный размер выборки для набора тренировок для контролируемого машинного обучения. Это с частотой ошибок epsilon и delta как вероятность того, что частота ошибок будет ниже желаемой частоты ошибок. Распределение класса 1 и класса 2 бинарного классификационного решения должно сыграть определенную роль в том, какие образцы будут загружены в набор тренировок. Как можно выбрать сам набор, а также сами образцы для n двоичных функций? – PVA