corpus

0зной

1ответ

В python, использующем NLTK, как бы найти количество неиспользуемых слов в документе, отфильтрованном по категориям? Я могу понять, как получить слова в корпусе, отфильтрованном по категории, например

2зной

1ответ

Makefile для БОЛЬШОГО количества файлов

Я раньше не писал Make-файлы, но я подозреваю, что это было бы полезно в моей ситуации. У меня есть набор текстовых файлов, которые мне нужны для предварительной обработки для извлечения функций для м

3зной

2ответ

Поиск Bigrams в списке worrds

Как бы я нашел поиск в формате bigram? Например, если бы я хотел, чтобы найти bigram = list(nltk.bigrams("New York")) В списке слов, words = nltk.corpus.brown.words(fileids=["ca44"]) Я пытался дел

0зной

3ответ

Подмножество корпуса на основе содержимого текстового файла

Я использую R и пакет tm для выполнения некоторого текстового анализа. Я пытаюсь построить подмножество корпуса на основе того, найдено ли определенное выражение в содержимом отдельных текстовых файло

2зной

1ответ

«Разница» среди матриц документов Срок

Предположим, у меня есть набор 100 документов, 70, говорящий о политике и 30 Говоря о математике (странная комбинация, я это знаю). Моя цель состоит в том, чтобы представить их на ху методов Повсемест

0зной

2ответ

с помощью R как рисовать Wordcloud для моих данных

Я хочу сделать Wordcloud следующего dataframe (скажем, DF): MAKE TYPE PRICE ___________________________ subaru hatchback 36 chevrolet hatchback 53 mazda truck 31 toyota hatchback 39 mitsub