2015-09-27 14 views
0

Я хотел бы оцифровать книгу так же, как проект reCaptcha. Есть ли уже система для ввода изображения, а затем вывод небольших изображений, обрезанных вокруг слов? Есть идеи, как это сделать?Как отсканированную страницу можно разделить на такие слова, как проект reCaptcha?

ответ

0

Вы должны изучить проект Tesseract OCR, на котором, вероятно, была основана reCaptcha. Он имеет возможность выводить координаты распознанных слов. Затем вы обрезаете страницу для этих коордов, и все готово.

0

Если вы хотите разбить изображение на несколько изображений по одному слову, вы можете попытаться найти слово ограничивающие прямоугольники, а затем взять эти координаты для разделения. Это можно сделать, взяв гистограммы/проекции документа в горизонтальном направлении, а затем для каждой линии в вертикальном направлении. Примерный алгоритм с некоторыми изображениями, описывающими эту идею, можно найти в этой статье: «Разложение страницы документа по методу проекции ограничивающих коробок» (http://haralick.org/conferences/71281119.pdf). Вы можете реализовать это в OpenCV.

Альтернативно, вы можете использовать Tessaract, как указано beppe9000. Возможно, это помогает: Getting the bounding box of the recognized words using python-tesseract

Но тогда вы получаете всю сложность обучения OCR, хотя вам нужны только ограничивающие прямоугольники.