Для моего задания мне нужно сделать программу машинного обучения, которая выполняет следующие действия:Классификация текста/Машинное обучение: мне также нужна категория «По умолчанию»?
В качестве входной информации программа получает план здания (написанный в формате PDF) для проекта, в основном мосты и шлюзы. Программа машинного обучения принимает каждое предложение в этом PDF-формате в качестве образца (слова в этом предложении являются функциями) и должно классифицировать каждый образец/предложение в одной из следующих категорий: связанное с оборудованием и связанное с программным обеспечением. (Я использую алгоритм Наивного Байеса в сочетании с TF-DIF.)
Однако, как вы можете себе представить, есть также множество нерелевантных предложений, которые не связаны ни с оборудованием, ни с программным обеспечением. Должен ли я сделать отдельную категорию «По умолчанию/безрезультатно», так что у меня есть три категории в целом? Или лучше сохранить только две категории и классифицировать их на основе их вероятности? Например; предложение классифицируется как аппаратное обеспечение на 0,6, тогда я игнорирую его. Но если результат равен 0,8 или выше, я классифицирую его как аппаратное.
Спасибо за ваше объяснение! Я сделаю дополнительную категорию, которая охватывает нерелевантные предложения. Еще один вопрос. Когда я классифицирую предложения, иногда я действительно сомневаюсь, что это должно быть классифицировано как аппаратное или неактуальное, но тогда я обычно слегка склоняюсь к Irrelevant. Должен ли я покрывать такие предложения в учебном наборе? Или я не должен использовать эти сомнительные предложения в учебном наборе? – user3656099
Вы хорошо.Основная идея состоит в том, что набор данных должен содержать ту же долю HW, SW и Irrelevant предложений, которые у вас будут в будущем для получения хороших вероятностей. О предложениях, которые вы не уверены в категории, есть некоторые алгоритмы, которые могут справляться с неопределенностью, но с ними сложнее работать. На мой взгляд, если вы не возражаете против будущей классификации таких предложений, удалите их из учебного набора, если вы предпочитаете классифицировать их как несущественные, включите их в учебный набор с использованием метки неактуальной. – Rob
Спасибо! Наверное, я не стану применять такие предложения в учебном наборе. Я видел, как другие говорят, что вам не нужно пытаться получить одинаковое количество образцов для каждой категории. Они говорят, что это нормально, если спрэд совпадает с реальными данными. Я был рад услышать, что категория SW находится в далеком меньшинстве (около 70 процентов не имеют отношения к делу, 25 процентов аппаратного обеспечения и 5 процентов программного обеспечения). Итак, мне действительно нужно попытаться получить одинаковое количество образцов для каждой категории? http://stackoverflow.com/questions/39444786/how-to-create-training-data-for-text-classification-on-4-categories – user3656099