Я ищу способ классификации отсканированных страниц, которые состоят в основном из текста.Классификация изображений в python
Вот подробности моей проблемы. У меня есть большая коллекция отсканированных документов и вам необходимо обнаружить наличие определенных типов страниц в этих документах. Я планирую «лопнуть» документы на свои страницы компонентов (каждый из которых является отдельным изображением) и классифицировать каждое из этих изображений как «A» или «B». Но я не могу понять, как это сделать.
Подробнее:
- У меня есть многочисленные примеры "A" и "B" изображение (страница), так что я могу сделать контролируемое обучение.
- Непонятно, как лучше всего извлекать из этих изображений функции для обучения. Например. Что это за особенности?
- Страницы иногда слегка вращаются, поэтому было бы замечательно, если бы классификация была несколько нечувствительной к вращению и (в меньшей степени) масштабированию.
- Я хотел бы получить кросс-платформенное решение, идеально в чистом питоне или с использованием общих библиотек.
- Я думал об использовании OpenCV, но это похоже на «тяжелое» решение.
РЕДАКТИРОВАТЬ:
- «A» и «B» страницы отличаются тем, что «B» страницы имеют формы на них с одной и той же общей структуры, в том числе наличие штрих-кода. Страницы «А» - это бесплатный текст.
Как они отличаются? Шрифт? Размер? Не могли бы вы просто OCR его часть (заголовок или автор в заголовке?) –
Ник, я добавил изменение, чтобы уточнить, что. На самом деле, моя цель - выбрасывать все * после * страниц B, потому что мне не нужно их OCR. Поэтому мне действительно нужно их обнаружить, прежде чем делать OCR. – Kyle
Это довольно сложная проблема - если ваша коллекция действительно потрясающая, было бы проще просто классифицировать страницы вручную как «A» или «B»? Вы можете написать небольшое графическое приложение, чтобы отображать их по очереди, чтобы вы могли просто нажать один ключ на страницу. – katrielalex