2016-08-30 3 views
0

LibShortText - это инструмент с открытым исходным кодом для классификации и анализа коротких текстов. http://www.csie.ntu.edu.tw/~cjlin/libshorttext/Работы LibShortText с другими языками тоже?

Я попытался выяснить, работает ли он на других языках, кроме английского (например, немецкий)? Но я не нашел намека.

Кто знает ответ? Заранее спасибо.

ответ

0

Я так думаю (но может потребоваться дополнительная предварительная обработка). Libsvm и Liblinear являются языковыми и агностиками. Поскольку LibShortText построен поверх LibLinear, он также должен работать на всех языках.

Согласно статье this, у нее есть внутренние методы предварительной обработки для извлечения функций.

libshorttext.converter: For given short texts, LibShortText follows 
the bag-of-word model to generate features. Users apply procedures in 
this library to pre-process short texts by tokenization, stemming 
(optional), and stop-word removal (optional). The library also allows 
users to choose between unigram and bigram features. 

Однако, похоже, что его удаление и удаление стоп-слова поддерживают только английский язык. Поэтому, если вы хотите, чтобы лучшие функции были извлечены для текста, отличного от английского, вы можете использовать свои собственные методы предварительной обработки, например, используя nltk.