У меня есть список униграмм (одно слово), битрам (два слова) и триграммы (три слова), которые я вытащил из кучки документов. Моя цель - статистический анализ отчета, а также a поиск Я могу использоват
Я пытаюсь использовать NGramFilterFactory в Solr (используя Sunspot in Rails), чтобы найти похожие заголовки. Мне удалось добавить новое поле в мою SOLR schema.xml как следующим образом: <fieldType na
Я тренирую модель n-грамм на корпусе Брауна, используя nltk.ngram.NgramModel. Это занимает в основном навсегда и использует много системной памяти. Мне было интересно, есть ли способ сохранить модель,