text2vec

    2зной

    1ответ

    На основе виньетки пакета text2vec представлен пример создания встраивания слов. Данные вики-файла являются токенизированными, а затем создается матрица совместного возникновения (TCM), которая исполь

    2зной

    1ответ

    Предположим, что я подготовил две отдельные модели векторного пространства GloVe (используя text2vec в R) на основе двух разных корпусов. Могут быть разные причины для этого: два базовых корпуса могут

    6зной

    1ответ

    Я использую text2vec в R и затрудняюсь написать функцию стебля, которая работает с функцией itoken в пакете text2vec. Документация text2vec предлагает эту функцию: stem_tokenizer1 =function(x) {

    2зной

    3ответ

    У меня есть большое текстовое тело, где я хочу эффективно заменить слова своими синонимами (например, заменить все вхождения «автомобиля» синонимом «автомобиль»). Но я изо всех сил стараюсь найти прав

    1зной

    2ответ

    Используя пакет text2vec, я создал словарь. vocab = create_vocabulary(it_0, ngram = c(2L, 2L)) Vocab выглядит примерно так > vocab Number of docs: 120 0 stopwords: ... ngram_min = 2; ngram_max =

    0зной

    1ответ

    Сегодня я столкнулся с пакетом text2vec, и это именно то, что мне нужно для конкретной проблемы. Однако мне не удалось выяснить, как экспортировать dtm, созданный с помощью text2vec, в какой-то выходн

    1зной

    1ответ

    Моделирование темы LDA в пакете text2vec поразительно. Это действительно намного быстрее, чем тематическое моделирование Однако, я не знаю, как получить вероятность каждого документа принадлежит к каж

    1зной

    1ответ

    Мне нужно использовать лексические данные от Google Books N-grams для построения (разреженной!) Матрицы временных совпадений (где строки - слова и столбцы - это одни и те же слова, а ячейки отражают,

    0зной

    1ответ

    Я использовал text2vec для генерации пользовательских вложений слов из совокупности собственных текстовых данных, содержащих множество отраслевых жаргонов (таким образом, запатентованные вложения, под