2016-11-01 7 views
2

Для моего задания мне нужно сделать программу машинного обучения, которая выполняет следующие действия:Классификация текста/Машинное обучение: мне также нужна категория «По умолчанию»?

В качестве входной информации программа получает план здания (написанный в формате PDF) для проекта, в основном мосты и шлюзы. Программа машинного обучения принимает каждое предложение в этом PDF-формате в качестве образца (слова в этом предложении являются функциями) и должно классифицировать каждый образец/предложение в одной из следующих категорий: связанное с оборудованием и связанное с программным обеспечением. (Я использую алгоритм Наивного Байеса в сочетании с TF-DIF.)

Однако, как вы можете себе представить, есть также множество нерелевантных предложений, которые не связаны ни с оборудованием, ни с программным обеспечением. Должен ли я сделать отдельную категорию «По умолчанию/безрезультатно», так что у меня есть три категории в целом? Или лучше сохранить только две категории и классифицировать их на основе их вероятности? Например; предложение классифицируется как аппаратное обеспечение на 0,6, тогда я игнорирую его. Но если результат равен 0,8 или выше, я классифицирую его как аппаратное.

ответ

1

Вы должны использовать нерелевантные предложения в вашем обучающем, я объясню причину с одним примером:

Если у вас есть проблема классификации три класса вы можете получить этот результат: Ненужных 95% Оборудования 4% Программное обеспечение 1%

Возможность быть аксессуарами в 4 раза выше, чем возможность использования программного обеспечения. Но вы, очевидно, выберете Irrelevant.

Если вы используете два класса набор данные вы получите этот результат: оборудования 80% Программного обеспечения 20%

вешать Причинить Hardware снова 4 раза вешать бытия программного обеспечения, но оба проценты должны подвести 100 %, потому что классификатор считает, что обе возможности - это весь универсум.

У вас есть два различных варианта:

1 - задача классификации 3 класса (Hardware, Software, неуместные)

2 - Два классификаторов 2 класса задачи классификации:

классификатору 1 -> Положительный класс Аппаратное обеспечение, Отрицательный класс: Программное обеспечение + Нежелательное

Классификатор 2 -> Положительный класс Программное обеспечение, Отрицательные категории: Аппаратное обеспечение + Нежелательно

+0

Спасибо за ваше объяснение! Я сделаю дополнительную категорию, которая охватывает нерелевантные предложения. Еще один вопрос. Когда я классифицирую предложения, иногда я действительно сомневаюсь, что это должно быть классифицировано как аппаратное или неактуальное, но тогда я обычно слегка склоняюсь к Irrelevant. Должен ли я покрывать такие предложения в учебном наборе? Или я не должен использовать эти сомнительные предложения в учебном наборе? – user3656099

+0

Вы хорошо.Основная идея состоит в том, что набор данных должен содержать ту же долю HW, SW и Irrelevant предложений, которые у вас будут в будущем для получения хороших вероятностей. О предложениях, которые вы не уверены в категории, есть некоторые алгоритмы, которые могут справляться с неопределенностью, но с ними сложнее работать. На мой взгляд, если вы не возражаете против будущей классификации таких предложений, удалите их из учебного набора, если вы предпочитаете классифицировать их как несущественные, включите их в учебный набор с использованием метки неактуальной. – Rob

+0

Спасибо! Наверное, я не стану применять такие предложения в учебном наборе. Я видел, как другие говорят, что вам не нужно пытаться получить одинаковое количество образцов для каждой категории. Они говорят, что это нормально, если спрэд совпадает с реальными данными. Я был рад услышать, что категория SW находится в далеком меньшинстве (около 70 процентов не имеют отношения к делу, 25 процентов аппаратного обеспечения и 5 процентов программного обеспечения). Итак, мне действительно нужно попытаться получить одинаковое количество образцов для каждой категории? http://stackoverflow.com/questions/39444786/how-to-create-training-data-for-text-classification-on-4-categories – user3656099

0

Каждый метод будет работать в зависимости от того, сколько данных обучения вы будете использовать. В настоящее время я работаю над большим проектом, который, по сути, выполняет аналогичную задачу с текстом, посланным предложением, хотя я использую 7 категорий. Я использовал 7 меток, поэтому никакого «неуместного» ковша ». При представлении результатов я использую теневой трюм, поэтому что-то выше, чем рейтинг 0.75, это отлично работает. Проблема с использованием «нерелевантного» ведра заключается в том, что вам нужно обучить его тому, что «нерелевантно», что может быть массивным разнообразным набором данных. Так что идите с вероятностным вариантом.

 Смежные вопросы

  • Нет связанных вопросов^_^