В настоящее время я использую Stormmer Snowball (Porter2) в своем Java-проекте, чтобы скрыть слова и т. Д. Однако это слова, которые либо не обязательно должны быть устранены, либо их слишком много? Например, online -> onlin
, why -> whi
, raise-> rais
, appreciate -> appreci
.Snowball Stemmer [Java]
Есть ли способ, что я мог бы попытаться предотвратить это ненужное, вытекающие, как я хотел бы, чтобы дать мне слова, которые имеют смысл, а также вытекающие слова, которые должны быть обусловлены, например, treating -> treat
, records -> record
, development -> develop
и т.д. по реализации некоторых вроде словаря, который бы избегал этих слов? Или, если есть какие-то другие стеблемеры, похожие на Snowball, которые менее точны в своих способностях к выходу из строя?
Спасибо за помощь.
Вот моя функция.
Что ваша цель вытекающих? поиск? –
@bigOTHER - моя цель - получить твиты из Интернета, выровнять слова в чириканье и удалить слова остановки, чтобы я остался с основными словами в твите для анализа. Однако некоторые из слов слишком ограничены и на самом деле не хотят этого, поэтому я искал его, чтобы он был менее точным. –
Эти слова были хорошими, потому что Portar существует для целей поиска, то есть не имеет значения, является ли стебель реальное происхождение, важно то, что оно одинаково для всей семьи слов. –