2013-05-13 5 views
1

У меня есть прецедент, в котором текст чата должен быть классифицирован. Я хочу использовать DocumentCategorizer в Apache OpenNLP для категоризации чата. Но для этого у меня должны быть данные о подготовке, которые должны быть классифицированы Чатами. Нужно ли вручную классифицировать сотни чатов для подготовки учебных и тестовых данных? Что еще я могу сделать? Я намереваюсь, чтобы категории чата были связанными с обслуживанием ПРОБЛЕМАМИ. Этот список категорий будет тогда специфичным для домена. Должен ли провайдер этих данных предоставить мне данные с разбивкой по категориям? Спасибо, заранее.Как классифицировать текст чата, когда нет данных обучения?

ответ

3

По определению у вас не может быть проблемы с классификацией без помеченных данных. Либо кто-то называет (по крайней мере, часть) данные, либо вы должны попытаться решить проблему по-другому.

- ред добавить некоторые примеры того, как решить эту проблему без классификации:

В целом, в зависимости от конкретной задачи, вы можете попытаться решить «классификации» проблемы с помощью кластеризации и/или документа, или долгосрочное соответствие. Кластеризация объединяет документы, относящиеся к одной и той же теме, в то время как согласование по срокам будет соблюдать документы, относящиеся к конкретным условиям. Если нет данных по обучению, но у вас есть некоторые сведения о проблеме, любой метод или комбинация между ними может быть достаточной для вашей информации.

Для вашей конкретной проблемы я бы попытался скопировать чаты.

+0

да, это должно быть путем go.I "будет группироваться данными чата Кластеризация требует фильтраций маловажного содержания, мы называем. прекратить слова и привести к тому, что данные по обучению отражают фактические данные. Достаточно ли это того, что касается подготовки данных по подготовке. Пожалуйста, предложите, если и не подумайте иначе. – user2377122

+0

Это звучит правильно, после того, было бы интересно проанализировать, что является основным значением каждого из них. Например, посмотрите, какие условия появляются больше всего. Это может предоставить вам дополнительную информацию. – miguelmalvarez

0

В то время как кластеризация позволяет классифицировать текст и определять темы в них, неконтролируемые методы часто приводят к уменьшению гибкости в управлении эффективностью вашей классификации, но они остаются лучшими инструментами, если вы не помечены данными.

Однако последние достижения в обучении с нулевым выстрелом и несколькими выстрелами позволяют создавать свой классификатор с небольшим количеством (100 - 200 учебных данных) или вообще без учебных данных. Ваш классификатор по-прежнему сохраняет все преимущества контролируемого классификатора и дает вам полный контроль над вашими категориями.

Я построил одну такую ​​систему, и вы можете опробовать demo по своим категориям и данным, чтобы увидеть систему в действии.

Дополнительные ресурсы:

  1. https://www.quora.com/Whats-the-difference-between-one-shot-learning-and-zero-shot-learning
  2. https://arxiv.org/abs/1710.10280