EDIT: Я пытаюсь классифицировать новый обзор пользователя на предопределенный набор тегов. Каждый обзор может иметь несколько тегов, связанных с ним.Google prediction API - данные обучения для построения классификатора
Я сопоставляюсь мои БД отзывы 15 категорий Следующий пример показывает текст, рассуждая отображенные категории
USER_REVIEWS | КАТЕГОРИИ
"Лучший pizza
когда-либо, мы действительно любили это место, our kids
..." | "еда, семья"
The ATV tour was extreme
и nature was beautiful
... "| "Активный, семейный"
pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature
EDIT: Я попробовал 2 подходы обучающих данных:
Первый включает в себя все категории в одном файле, как так:
"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."
Второй подход разделив подготовки данных для 15 отдельных файлов, как так:
family_training_data. CSV:
"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."
Non вышеперечисленного были убедительными, и пропустил мечения большую часть времени.
Вот некоторые вопросы, которые пришли, когда я экспериментировал:
- Некоторые из моих обзоров очень длинные (более 300 слов), я должен ограничивать слова в моем файле данных обучения , поэтому он будет соответствовать среднему числу слов обзора (80)?
- Лучше всего разделить данные на 15 файлов данных тренировки с параметром TRUE/FALSE, что означает: (представляет собой текст обзора определенной категории) или смешивать все категории в одном файле данных обучения?
- Как я могу обучить модель, чтобы найти синонимы или родственные ключевые слова, так что он может пометить «
motorbike
поездка была большой», какactive
хотя обучающие данные имели рекорд поATV
езды
Iv'e попробовал некоторые подходы, как описано выше, без каких-либо хороших результатов.
Q: Какой формат данных обучения даст наилучшие результаты?
Вы задали очень широкий набор вопросов; Я думаю, что это выходит за рамки приложения StackOverflow. Как бы то ни было, я не думаю, что смогу ответить на этот вопрос. Какую конкретную проблему вы пытаетесь решить? Что представляет собой «хорошие результаты»? Каковы ваши критерии для «наилучших результатов»? Почему вы хотите * подготовить * модель к лексике, когда это, как правило, направленная задача? – Prune
Спасибо за ваш ответ, я постараюсь уточнить. Проблема, которую я пытаюсь решить, - это классификация отзывов на предопределенные теги, в то время, когда результаты, которые я получаю, (в большинстве случаев) не являются окончательными, или отсутствуют тегирование вместе, хорошие результаты были бы отмечены как правильные 80% времена. Поскольку я не являюсь экспертом в подготовке данных о подготовке, я пришел сюда со многими неопределенностями. –
Пожалуйста, проверьте мои изменения :) –