2010-10-07 3 views
4

У меня есть несколько большой документ и вы хотите сделать исключение стоп-слова и судить по словам этого документа с помощью Python. Кто-нибудь знает о пакете полки для них? Если код, который достаточно быстро подходит для крупных документов, также приветствуется. ThanksУстранение стоп-слова и штокмер в python

ответ

8

NLTK поддерживает это.

+0

Да, используйте NLTK. Это с открытым исходным кодом и работает на Windows, Mac и Linux. –

4

Если по какой-то причине вы не хотите использовать NLTK, вы можете попробовать PyStemmer. Для стоп-слов просто загрузите список (google it) и отфильтруйте их.