Я использую NB для классификации документов и пытаюсь понять пороговый параметр, чтобы увидеть, как он может помочь оптимизировать алгоритм.spark ml 2.0 - Naive Bayes - как определить пороговые значения для каждого класса
Спарк ML 2,0 thresholds
док говорит:
Param for Thresholds in multi-class classification to adjust the probability of predicting each class. Array must have length equal to the number of classes, with values >= 0. The class with largest value p/t is predicted, where p is the original probability of that class and t is the class' threshold.
0) Может ли кто-нибудь объяснить это лучше? Какую цель он может достичь? Моя общая идея заключается в том, что если у вас есть порог 0,7, то, по крайней мере, вероятность предсказания одного класса должна быть больше 0,7, если нет, тогда предсказание должно быть пустым. Средство классифицирует его как «неопределенное» или просто оставляет пустым для столбца прогноза. Как может p/t-функция достичь этого, когда вы все равно выбираете категорию с максимальной вероятностью?
1) Какую вероятность он регулирует? «Вероятность» столбца по умолчанию - условная вероятность, а «rawPrediction» - уверенность в соответствии с документом. Я считаю, что порог будет корректировать столбец «rawPrediction», а не «вероятность». Я прав?
2) Вот как выглядят некоторые из моих вероятностей и вектор rawPrediction. Как установить пороговые значения на основе этого, чтобы я мог удалить определенную неопределенную классификацию? probability
находится между 0 и 1, но rawPrediction
, по-видимому, находится на шкале журнала здесь.
Вероятность: [2.233368649314982E-15,1.6429456680945863E-9,1.4377313514127723E-15,7.858651849363202E-15]
rawPrediction: [-496.9606736723107,-483.452183395287,-497.40111830218746]
В основном я хочу классификатор, чтобы оставить столбец Prediction пустым, если он не имеет какой-либо вероятность того, что является более чем 0,7 процента.
Также, как классифицировать что-то как неопределенное, когда более чем одна категория имеет очень близкие оценки, например. 0,812, 0,800, 0,799. Выбор max - это то, что я, возможно, не хочу здесь, но вместо этого классифицирую как «неопределенное» или оставляю пустое, и я могу продолжить анализ и обработку этих документов или подготовить другую модель для этих документов.