2015-12-22 6 views
1

У меня есть текст с 140 символами и набор ключевых слов. Что я хочу сделать, так это написать алгоритм, который поможет мне вычислить процентное соответствие между моим текстом и ключевыми словами, чтобы квалифицировать текст как напоминающий анонс ИТ-события.Квалификация текста Java и ключевых слов

Например: Текст: «Завтра состоится наше еженедельное мероприятие, посвященное компьютеру. Мы обсудим, как реализовать алгоритмы. Это будет очень здорово». ключевого слова: «событие, компьютер, базы данных, программное обеспечение, алгоритмы»

Здесь согласующее это 3 слова более 5 ключевых слов, что составляет 60%

ли, которые имеют смысл, используя количество слов и сравнить его с количеством ключевое слово? Правильно ли это утверждение? С кем-то раньше сталкивался?

Спасибо за вашу поддержку.

ответ

0

Да, это определенно имеет смысл. Тем не менее, вам необходимо будет на практике оценить, достаточно ли это для вашей цели. Это в значительной степени зависит от текстов, с которыми вы имеете дело.

Если вы хотите попробовать что-то более продвинутое, но не слишком сложное: Cosine similarity - еще одна распространенная мера для сравнения текстов.

Существует множество алгоритмов и библиотек для классификации текста. LingPipe - хорошая библиотека Java, которая может вам помочь.

Если вы заинтересованы в использовании библиотеки, вы найдете хороший обзор в верхнем ответе на этот вопрос quora question.