2016-07-05 3 views
0

Я работаю над проблемой классификации текста с несколькими метками с 10 ярлыками. Набор данных небольшой, + 7000 элементов и + -7500 ярлыков. Я использую python sci-kit learn и что-то странное пришло в результаты. В качестве базовой линии я начал использовать countvectorizer и на самом деле планировал использовать векторизатор tfidf, который, как я думал, будет работать лучше, но это не так. (0,76 против 0,65)TF-IDF-векторный анализатор не работает лучше, чем countvectorizer (sci-kit learn

Я не могу окунуться в голову, почему это может быть так? Существует 10 категорий, один из которых называется Особенно это дает гораздо более высокую производительность при использовании tfidf.

Кто-нибудь знает, когда tfidf может выполнять хуже, чем считать?

+0

Что вы подразумеваете под f1 оценка? –

ответ

1

Вопрос в том, почему бы и нет? Оба варианта - разные.

Каков ваш набор данных, сколько слов, как они помечены, как вы извлекаете свои функции? countvectorizer просто посчитайте слова, если он хорошо справится, пусть будет так.

+0

У меня есть набор данных календаря событий, я классифицирую название и текст в десяти категориях, таких как: танец, музыка, разное, дети и т. Д. Каждое событие может иметь несколько ярлыков. Я извлекаю заголовок и текст (и некоторые другие мелочи) в строку, токенизую и использую векторизатор. Мне кажется, что tf-idf всегда должен выполнять, по крайней мере, такую ​​же хорошую работу, как просто tf .. Это для моей диссертации, поэтому я должен поддержать свое решение использовать count вместо tfidf, но я не могу объяснить, почему он работает лучше. – Mayia

1

Нет никакой причины, по которой idf предоставит больше информации для задачи классификации. Он хорошо работает для поиска и ранжирования, но для классификации необходимо собрать сходство, а не особенности.

IDF предназначен для определения сингулярности между одним образцом и остальной частью корпуса, то, что вы ищете, является особенностью между одним образцом и другими кластерами. IDF сглаживает сходство внутри кластерного TF.