0
Мне нравится создавать список слов остановки для неанглоязычного языка. Какие показатели лучше всего подходят для создания списка стоп-слов: только временная частота для всей коллекции документов или показателей tf-idf?Как создать собственный список слов остановки?
Можете ли вы подробнее рассказать о том, что вы создаете? Я не могу найти какую-либо информацию о том, какую программу вы используете и чего пытаетесь достичь ... Пожалуйста, будьте более конкретным. – Raptor
Мне нравится делать кластеризацию документов для документов, написанных на македонский язык. Я использую инструментарий Weka. – vikifor