ввода текста всегда список имен блюдо, где есть 1 ~ 3 прилагательные и существительное Входы thai iced tea
spicy fried chicken
sweet chili pork
thai chicken curry
выходы: thai tea, iced tea
spic
Я обучил модели языка Ngram (unigram и bigram) на корпусе английского языка, и я пытаюсь вычислить вероятности предложений из непересекающегося тела. Например, учебный корпус состоит из 3-х предложени
Я использую Elasticsearch на некоторое время, но я не могу найти анализатор, который решает этот конкретный вопрос: У меня есть документ, который содержит следующий текст: "The Harry Potter and the So
У меня есть 3 миллиона рефератов, и я хотел бы извлечь из них 4 грамма. Я хочу построить языковую модель, поэтому мне нужно найти частоты этих 4-граммов. Моя проблема заключается в том, что я не могу
Мне нужны ngrams. Я знаю, что nltk.utils.ngrams может использоваться для получения ngrams, но на практике функция ngrams возвращает объект-генератор. Я всегда могу перебирать его и хранить ngrams в сп