Я сослался на эти две ссылки для запуска Mahout NB классификаторMahout 0,9: Используя собственный тестовый набор вместо того, чтобы использовать разделение команды
[1] http://tharindu-rusira.blogspot.com/2014/01/naive-bayes-classification-apache-mahout.html
[2] http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/
Я хотел бы использовать мой собственный тестовый набор вместо того, чтобы mahout разбивал мои данные на тренировочные и тестовые наборы (80:20). Как я могу это достичь?
Это звучит разумно, и это то, что я сделал. Но у меня были результаты, которые сильно отличались от того, что я получил, когда Маху разделил результаты в аналогичном проценте - у меня есть четыре категории, и он решил, что все было от одного из них, а не деления их правильно (поскольку это более или менее когда он разделил вход) – Eyal
Я предполагаю, что это связано с tagindex - что существует несоответствие между метками теста и набора тренировок. Это звучит правдоподобно? – Eyal
Да, эти метки должны быть одинаковыми. Мы должны проверить модель с тем же набором меток, который мы использовали для обучения. – Rajkumar