Я работаю над проектом, где мне нужно проанализировать страницу текста и коллекций страниц текста, чтобы определить доминирующие слова. Я хотел бы знать, есть ли библиотека (предпочитают C# или java), которые будут обрабатывать тяжелую работу для меня. Если нет, есть ли алгоритм или несколько, которые достигли бы моих целей ниже.Алгоритмы или библиотеки для текстового анализа, в частности: доминирующие слова, фразы в тексте и сбор текста
То, что я хочу сделать, похоже на облако слов, построенное из URL-адреса или rss-канала, которые вы найдете в Интернете, за исключением того, что я не хочу визуализации. Они используются все время для анализа выступлений кандидатов в президенты, чтобы узнать, что такое тема или наиболее используемые слова.
Усложнение заключается в том, что мне нужно сделать это на тысячах коротких документов, а затем на коллекциях или категориях этих документов.
Мой первоначальный план состоял в том, чтобы разобрать документ, затем отфильтровать общие слова - он, он, она и т. Д. Затем подсчитайте количество повторений оставшихся слов в тексте (и общий сбор/категорию).
Проблема в том, что в будущем я хотел бы обрабатывать стебли, множественные формы и т. Д. Я также хотел бы узнать, есть ли способ определить важные фразы. (Вместо подсчета слова, количество фраз составляет 2-3 слова вместе)
Любое руководство по стратегии, библиотекам или алгоритмам, которые помогут вам оценить.
Я добавил тег «natural-language» к сообщению. – 2008-10-21 00:39:18