2016-07-20 6 views
0

Я работаю над проектом, который просит меня дать предложение по ключевому слову/ключевой фразе, основанное на описании продукта.Ключевое слово предложение Алгоритм

То, что у меня есть сейчас: Описание продукта, Категория продукта (может быть или не быть).

Что я хочу: Машинные сгенерированные ключевые слова/ключевые фразы на основе описания.

Какие исследования я сделал: (подход на основе НЛП) Эта проблема может быть разбита на два отдельных подхода.

  • Не используя прошлые данные: Просто суммируя по текущему описанию
  • Метода: - лексического, происходя, игнорируемые слова удаления и т.д. (Preprocessing)
  • Shallow NLP (избирательный округ Синтаксического) и оставить только НП & JJ фразы ,

Это будет подход, который не использует описание, присутствующее в базе данных.

То, что я искал, - это лучший подход, который использует алгоритмы ML, а также использует данные моего прошлого описания продукта.

Я думал о применении мелкого анализа всего набора данных, а затем давал ключевые слова, встречающиеся более чем в N числе продуктов.

Какой алгоритм или подход пригодится? Как я могу использовать свои данные?

+0

У вас есть большой набор продуктов с ключевыми словами уже на месте, которые вы можете использовать для обучения? –

+0

Да, у меня есть ключевые слова, связанные с «некоторыми» описаниями продуктов. –

ответ

0

Попробуйте взглянуть на основные модели, как: Term Frequency или TF-IDF, Это даст вам некоторые важные слова: https://en.wikipedia.org/wiki/Tf%E2%80%93idf, затем искать текста кластеризация (для кластера текста в группе, которые связаны друг с другом) и Подходы обнаружения темы (это может помочь вам найти важные слова и тему, связанные с документом)

Затем вы можете найти ключевое слово для каждого кластера (также вы можете рассмотреть категории документов) и попытаться найти наиболее релевантные слова для другие слова

Предлагаю прочитать некоторые/или w дыр главы этой книги: http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

+0

Могу ли я выполнить схожесть документа (описания) (который в основном основан на TF-IDF)? А затем предложите ключевые слова, которые содержатся в большинстве документов из списка похожих документов? –