У меня есть набор объектов Книги, classs Книга определяется следующим образом:Java проблема текст классификации
Class Book{
String title;
ArrayList<tags> taglist;
}
Где название является название книги, например: Javascript для чайников.
и taglist список тегов для нашего примера: Javascript, JQuery, «веб-разработчика», ..
Как я сказал, есть множество книг, говорящих о разных вещах: IT, биологии, истории, ... Каждая книга имеет название и набор тегов, описывающих его ..
я должен классифицировать автоматически эти книги в отдельные наборы по темам, например:
IT BOOKS:
- Java для чайников
- Javascript для чайников
- Узнать флэш через 30 дней
- C++ программирование
История Книги:
- Мировой войны
- Америка в 1960 году жизнь
- Мартина Лютера Кинга
БИОЛОГИЯ КНИГИ:
- ....
Знаете ли вы, ребята, алгоритм классификации/метод применить для такого рода проблем?
Решение состоит в том, чтобы использовать внешний API для определения категории текста, но проблема в том, что книги на разных языках: французский, испанский, английский ..
Да, но там некоторые общие теги между книгами: ( – Youssef
Связанный вопрос: http://stackoverflow.com/questions/2781752/naive-bayesian-for-topic-detection-using-bag-of-words-approach/2783356#2783356 – dmcer
nice спасибо (y) – Youssef