Я использую NLTK со стоп-словами для определения языка документа, используя метод, описанный Алехандро Ноллой по адресу http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/, и он работает достаточно хорошо.Как я могу добавить дополнительные языки для остановки в NLTK?
Я также работаю с некоторыми дополнительными языками, не включенными в пакет стоп-слов NLTK, такими как чешский и румынский языки, и они получают ложные совпадения как другие языки. Это языки в словах:
['датский', 'голландский', 'английский', 'финский', 'французский', 'немецкий', 'венгерский', 'итальянский', 'норвежский', 'португальский ',' russian ',' spanish ',' swedish ',' turkish ']
Как расширить список языков, поддерживаемых NLTK? Есть ли другие списки дневников, которые я могу добавить? Есть ли документированный метод, который я могу использовать для создания собственных списков дневников?
В случае, если кому-то это будет полезно, дополнительные списки дневников, которые я использовал с моим ныне не существующим проектом, доступны на Github здесь: https : //github.com/Xangis/extra-stopwords –