Я строю модель языка в R, чтобы предсказать следующее слово в предложении, основанное на предыдущих словах. В настоящее время моя модель представляет собой простую модель ngram с сглаживанием Kneser-Ney. Он предсказывает следующее слово, найдя ngram с максимальной вероятностью (частотой) в обучающем наборе, где сглаживание предлагает способ интерполировать ngrams более низкого порядка, что может быть выгодным в случаях, когда ngrams более высокого порядка имеют низкую частоту и могут не предлагать надежного предсказания , Хотя этот метод работает достаточно хорошо, он «не работает» в тех случаях, когда n-грамм не может захватить контекст. Например, «Тепло и солнечно снаружи, пойдем к ...» и «Холодно и идет дождь, пойдем к ...» предложит такое же предсказание, потому что контекст погоды не захвачен в последнем n-грамме (при условии, что n < 5).Прогнозирование следующего слова text2vec в R
Я изучаю более сложные методы, и я нашел text2vec пакет, который позволяет сопоставлять слова в векторное пространство, где слова с похожим значением представлены схожими (близкими) векторами. У меня такое ощущение, что это представление может быть полезно для следующего предсказания слова, но я не могу понять, как именно определить задачу обучения. Мой quesiton - это то, что text2vec - это правильный инструмент для использования для следующего предсказания слова, и если да, то каков подходящий алгоритм прогнозирования, который можно использовать для этой задачи?
Знаете ли вы, существует ли реализация R для RNNLM? – Sasha
Наверное, не было бы моей догадки. – Aaron