5

Я решаю проблему классификации. Я тренирую свою неконтролируемую нейронную сеть для набора объектов (используя архитектуру skip-gram).Оценка эффективности вложений нейронной сети в классификаторе kNN

Путь я оцениваю это поиск K ближайших соседей для каждой точки данных проверки, из обучающих данных. Я беру взвешенную сумму (веса на основе расстояния) ярлыков ближайших соседей и использую эту оценку каждой точки данных валидации.

Наблюдение - Как я увеличить число эпох (model1 - 600 эпох, model 2 - 1400 эпох и model 3 - 2000) эпоха, моя АУК улучшается при меньших значениях k но насыщается при аналогичных значениях.

Какое может быть возможное объяснение этого поведения?

enter image description here

[Reposted из CrossValidated]

+0

Я пытаюсь классифицировать отзывы клиентов в двух категориях. Вложения обучаются с использованием предложения2vec. Я написал собственный kNN-классификатор для hadoop. – kampta

+0

Может ли быть так, что между этими двумя классами нет разницы? Например, если это был какой-то анализ настроений, мы часто сталкиваемся с двойными отрицательными выражениями, которые могут нарушить наивный классификатор. –

+0

Если 'model3' лучше классифицирует такие случаи, не лучше ли AUC, чем' model1'? – kampta

ответ

0

Чтобы перепроверить, если несбалансированной классы проблема, попробуйте подгонки модели SVM. Если это дает лучшую классификацию (возможно, если ваш ANN не очень глубокий), можно сделать вывод, что сначала следует сбалансировать классы.

Кроме того, попробуйте некоторые функции ядра, чтобы проверить, делает ли это преобразование линейно разделяемыми данными?