2009-02-27 12 views
6

Stemming - это то, что необходимо в системах маркировки. Я пользуюсь восхитительными, и у меня нет времени, чтобы управлять и обрезать теги. Я немного осторожнее с моим блогом, но это не идеально. Я пишу программное обеспечение для встроенных систем, которые были бы намного более функциональными (полезными для пользователя), если бы они включали в себя создание.Stemming - примеры кода или проекты с открытым исходным кодом?

Например:
Анализировать
Parser
Синтаксический

Если все это означает то же самое для любой системы я помещаю их в.

В идеале есть лицензионный стебельщик BSD где-то, но если нет, то где я могу изучить общие алгоритмы и методы для этого?

Помимо BSD-стволовых, какие другие лицензированные стволовые средства с открытым исходным кодом существуют?

-Adam

+0

Кому-то нужно добавить http://snowball.tartarus.org/ в качестве ответа (подсказка, подсказка) ... –

+0

Хехе, strippergram –

+0

Но я хотел бы видеть других, а точнее больше информации об используемых алгоритмах , –

ответ

1

Lucene имеет стеммер, я верю (и IIRC это позволяет использовать свой собственный, если вы хотите).

EDIT: проверено, и Lucence ссылается на сайт Snowball, который является библиотекой с открытым исходным кодом, насколько я могу судить.