2017-02-05 42 views
0

У меня есть набор данных 1M + наблюдений за взаимодействием клиентов с колл-центром. Текст является бесплатным текстом, написанным представителем, принимающим вызов. Текст не хорошо отформатирован и не близок к грамматически правильному (много короткой руки). Ни один из свободного текста не имеет метки на данных, поскольку я не знаю, какие метки предоставить.Текстовая классификация - предварительный процесс маркировки

Учитывая размер данных, будет ли случайный образец данных (чтобы обеспечить высокий уровень уверенности) разумным первым шагом в определении того, какие метки создавать? Возможно ли не вручную маркировать 400 + случайные наблюдения из данных, или нет другого способа предварительной обработки данных, чтобы определить хороший набор меток для использования для классификации?

Цените любую помощь по этому вопросу.

ответ

1

Ручная аннотация - хороший вариант, поскольку у вас есть очень хорошая идея идеального документа, соответствующего вашей этикетке.

Однако с большим размером набора данных я бы рекомендовал вам приспособить LDA к документам и посмотреть созданные темы, это даст вам представление о методах, которые вы можете использовать для классификации текста.

Вы можете также использовать LDA для классификации текста, в конце концов, обнаружив репрезентативные документы для ваших ярлыков, а затем найдя самые близкие документы к этому документу по метрике подобия (скажем, косинус).

В качестве альтернативы, если у вас есть идея ярлыков, вы также можете назначить их без ручного вмешательства с использованием LDA, но тогда вы получите доступ к неконтролируемому обучению.

Надеюсь, это поможет!

P.S. - Обязательно удалите все временные слова и используйте стэммер, чтобы объединить слова аналогичного примера короля (управление, управление, управление) на этапе предварительной обработки.

+0

Ничего себе. Это ... мощно. Огромное спасибо. Если кто-то заинтересован в том, чтобы это реализовано в R, см. Здесь: http: //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33

1

Текст Предварительная обработка: Преобразовать весь текст в нижний регистр, разметить в юниграмм, удалить все стоп-слова, использование парадигматический нормализовать токен это база слово.

Есть два подхода, которые я могу придумать для классификации документов a.k.a. свободного текста, о котором вы говорили. Каждый свободный текст является документом:

1) Поддержанная классификация Проведите некоторое время и произвольно выберите несколько образцов документов и присвойте им категорию. Сделайте это до тех пор, пока у вас не будет нескольких документов для каждой категории, и будут охвачены все категории, которые вы хотите предсказать.

Далее, создайте из этого текста матрицу Tf-Idf. Выберите лучшие функции K (значение настройки K для получения наилучших результатов). Кроме того, вы можете использовать SVD, чтобы уменьшить количество функций, объединив коррелированные функции в один. Пожалуйста, учтите, что вы можете использовать другие функции, такие как отдел исполнительной службы обслуживания клиентов и многие другие, также как предиктора. Теперь подготовьте модель машинного обучения и проверьте ее.

2) Неконтролируемое обучение: Если вы знаете, сколько категорий у вас есть в вашей выходной переменной, вы можете использовать это число как количество кластеров, которые вы хотите создать. Используйте вектор Tf-Idf из вышеприведенной техники и создайте кластеры k. Случайно выберите несколько документов из каждого кластера и определите, к какой категории принадлежат документы. Предположим, вы выбрали 5 документов и заметили, что они относятся к категории «Требуется возврат».Обозначьте все документы в этом кластере «Требуется возврат». Сделайте это для всех остальных кластеров.

Преимущество неконтролируемого обучения заключается в том, что оно избавляет вас от боли в предварительной классификации и подготовки данных, но остерегайтесь неконтролируемого обучения. Точность может быть не такой хорошей, как контролируемое обучение.

2 объясненный метод - это абстрактный обзор того, что можно сделать. Теперь, когда у вас есть идея, прочитайте больше о темах и используйте инструмент quickminer для достижения своей задачи намного быстрее.