Текст Предварительная обработка: Преобразовать весь текст в нижний регистр, разметить в юниграмм, удалить все стоп-слова, использование парадигматический нормализовать токен это база слово.
Есть два подхода, которые я могу придумать для классификации документов a.k.a. свободного текста, о котором вы говорили. Каждый свободный текст является документом:
1) Поддержанная классификация Проведите некоторое время и произвольно выберите несколько образцов документов и присвойте им категорию. Сделайте это до тех пор, пока у вас не будет нескольких документов для каждой категории, и будут охвачены все категории, которые вы хотите предсказать.
Далее, создайте из этого текста матрицу Tf-Idf. Выберите лучшие функции K (значение настройки K для получения наилучших результатов). Кроме того, вы можете использовать SVD, чтобы уменьшить количество функций, объединив коррелированные функции в один. Пожалуйста, учтите, что вы можете использовать другие функции, такие как отдел исполнительной службы обслуживания клиентов и многие другие, также как предиктора. Теперь подготовьте модель машинного обучения и проверьте ее.
2) Неконтролируемое обучение: Если вы знаете, сколько категорий у вас есть в вашей выходной переменной, вы можете использовать это число как количество кластеров, которые вы хотите создать. Используйте вектор Tf-Idf из вышеприведенной техники и создайте кластеры k. Случайно выберите несколько документов из каждого кластера и определите, к какой категории принадлежат документы. Предположим, вы выбрали 5 документов и заметили, что они относятся к категории «Требуется возврат».Обозначьте все документы в этом кластере «Требуется возврат». Сделайте это для всех остальных кластеров.
Преимущество неконтролируемого обучения заключается в том, что оно избавляет вас от боли в предварительной классификации и подготовки данных, но остерегайтесь неконтролируемого обучения. Точность может быть не такой хорошей, как контролируемое обучение.
2 объясненный метод - это абстрактный обзор того, что можно сделать. Теперь, когда у вас есть идея, прочитайте больше о темах и используйте инструмент quickminer для достижения своей задачи намного быстрее.
Ничего себе. Это ... мощно. Огромное спасибо. Если кто-то заинтересован в том, чтобы это реализовано в R, см. Здесь: http: //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33