0

Я реализовал классификатор KNN в java и получил странный результат. Если я сделаю анализ настроений на примере набора данных Amazon, то я получил точность 55%. Из 100 тестовых документов 55 правильно классифицируются как отрицательные или положительные отзывы и 45 неверно. Но если я использую KNN для примера категории камеры или книг, то я получил точность 95%.Анализ чувствительности классификатора KNN и точность анализа категории

Есть некоторые объяснения, что мой код является неправильным? Есть идеи?

+1

Яблоки в апельсинах? Вы сравниваете эффективность KNN при анализе настроений и производительности KNN по категоризации? Вы бы использовали радикально разные функции в этих случаях .... это не ошибка алгоритма, если они плохо работают ... – Crisfole

+0

@ Кристофер Пфохл, да, я сравниваю эффективность KNN в анализе категоризации и настроения. Что вы имеете в виду радикально разные функции? Я использовал словосочетание и стоп-слова. – flatronka

+0

спасибо @gary, но мне нужна только теория, мой код - это более 15 классов, интерфейсов, мне нужна теория, что это возможно или нет. – flatronka

ответ

3

@Christopher Pfohl является правильным. Это разные подходы с одним ключевым отличием для вас. Анализ настроений (основанный на простой сумке слов) гораздо сложнее, чем классификация категорий в вашем случае.

Btw, только одно уточнение, 55% не точность, то есть точность. (Дополнительная информация: http://en.wikipedia.org/wiki/Accuracy_and_precision#In_binary_classification)

+0

Спасибо за ваш ответ. Я использовал это уравнение: http://static.usenix.org/event/sec02/full_papers/liao/liao_html/node4.html Можете ли вы дать оценку для анализа настроений? – flatronka

+0

Вы должны лучше понимать процесс классификации. Оба процесса являются классификацией. Однако, поскольку «перспектива», в которой вы классифицируете их, отличается (настроение против категории), вам нужно представлять информацию по-разному. Пример: Для анализа настроений слова типа «хорошие» и «плохие» ДЕЙСТВИТЕЛЬНО важны, хотя они, вероятно, являются шумом для сходства по темам. Модель такая же, но представление данных изменяется. – miguelmalvarez

+0

Спасибо, я приму ваше объяснение. Можете ли вы указать источник, что я могу решить проблему с представлением данных? – flatronka

 Смежные вопросы

  • Нет связанных вопросов^_^