У меня есть прецедент, в котором текст чата должен быть классифицирован. Я хочу использовать DocumentCategorizer в Apache OpenNLP для категоризации чата. Но для этого у меня должны быть данные о подготовке, которые должны быть классифицированы Чатами. Нужно ли вручную классифицировать сотни чатов для подготовки учебных и тестовых данных? Что еще я могу сделать? Я намереваюсь, чтобы категории чата были связанными с обслуживанием ПРОБЛЕМАМИ. Этот список категорий будет тогда специфичным для домена. Должен ли провайдер этих данных предоставить мне данные с разбивкой по категориям? Спасибо, заранее.Как классифицировать текст чата, когда нет данных обучения?
ответ
По определению у вас не может быть проблемы с классификацией без помеченных данных. Либо кто-то называет (по крайней мере, часть) данные, либо вы должны попытаться решить проблему по-другому.
- ред добавить некоторые примеры того, как решить эту проблему без классификации:
В целом, в зависимости от конкретной задачи, вы можете попытаться решить «классификации» проблемы с помощью кластеризации и/или документа, или долгосрочное соответствие. Кластеризация объединяет документы, относящиеся к одной и той же теме, в то время как согласование по срокам будет соблюдать документы, относящиеся к конкретным условиям. Если нет данных по обучению, но у вас есть некоторые сведения о проблеме, любой метод или комбинация между ними может быть достаточной для вашей информации.
Для вашей конкретной проблемы я бы попытался скопировать чаты.
В то время как кластеризация позволяет классифицировать текст и определять темы в них, неконтролируемые методы часто приводят к уменьшению гибкости в управлении эффективностью вашей классификации, но они остаются лучшими инструментами, если вы не помечены данными.
Однако последние достижения в обучении с нулевым выстрелом и несколькими выстрелами позволяют создавать свой классификатор с небольшим количеством (100 - 200 учебных данных) или вообще без учебных данных. Ваш классификатор по-прежнему сохраняет все преимущества контролируемого классификатора и дает вам полный контроль над вашими категориями.
Я построил одну такую систему, и вы можете опробовать demo по своим категориям и данным, чтобы увидеть систему в действии.
Дополнительные ресурсы:
да, это должно быть путем go.I "будет группироваться данными чата Кластеризация требует фильтраций маловажного содержания, мы называем. прекратить слова и привести к тому, что данные по обучению отражают фактические данные. Достаточно ли это того, что касается подготовки данных по подготовке. Пожалуйста, предложите, если и не подумайте иначе. – user2377122
Это звучит правильно, после того, было бы интересно проанализировать, что является основным значением каждого из них. Например, посмотрите, какие условия появляются больше всего. Это может предоставить вам дополнительную информацию. – miguelmalvarez