2016-05-28 4 views
0

Я борюсь с лучшим выбором для проблемы классификации/прогнозирования. Позвольте мне объяснить задачу - у меня есть база данных ключевых слов из тезисов для разных исследовательских работ, также у меня есть список журналов с указанными факторами воздействия. Я хочу создать модель для классификации статей на основе их ключевых слов, результатом которой является возможный фактор воздействия (взятый как номер без дальнейшего описания журнала) с заданными ключевыми словами. Я удалил уникальные теги ключевых слов, поскольку они не имеют значительной статистической значимости, поэтому у меня есть только те ключевые слова, которые повторяются 2 и более раз в моем абстрактном списке (всего 6000 ключевых слов). Я думаю о фиктивной кодировке - для каждой статьи я создам бинарный вектор функции 6000 атрибутов в длину - каждый атрибут относится к наличию ключевого слова в абстрактном и классифицирует весь набор SVM. Я уверен, что это решение не очень элегантно и, вероятно, также неверно, есть ли у вас предложения по лучшей сделке?Классификация редких данных

ответ

0

Нет ничего плохого в использовании этой стратегии кодирования для текстовых и поддерживающих векторных машин.

Для вашей фактической цели:

  • поддержки вектор регрессии (СВР), может быть более подходящим
  • остерегаться импакт-фактора журнала. Это очень грубо. Вы должны учитывать временные аспекты; и многие очень хорошие работы не публикуются в журналах вообще