Я хотел бы оцифровать книгу так же, как проект reCaptcha. Есть ли уже система для ввода изображения, а затем вывод небольших изображений, обрезанных вокруг слов? Есть идеи, как это сделать?Как отсканированную страницу можно разделить на такие слова, как проект reCaptcha?
ответ
Вы должны изучить проект Tesseract OCR, на котором, вероятно, была основана reCaptcha. Он имеет возможность выводить координаты распознанных слов. Затем вы обрезаете страницу для этих коордов, и все готово.
Если вы хотите разбить изображение на несколько изображений по одному слову, вы можете попытаться найти слово ограничивающие прямоугольники, а затем взять эти координаты для разделения. Это можно сделать, взяв гистограммы/проекции документа в горизонтальном направлении, а затем для каждой линии в вертикальном направлении. Примерный алгоритм с некоторыми изображениями, описывающими эту идею, можно найти в этой статье: «Разложение страницы документа по методу проекции ограничивающих коробок» (http://haralick.org/conferences/71281119.pdf). Вы можете реализовать это в OpenCV.
Альтернативно, вы можете использовать Tessaract, как указано beppe9000. Возможно, это помогает: Getting the bounding box of the recognized words using python-tesseract
Но тогда вы получаете всю сложность обучения OCR, хотя вам нужны только ограничивающие прямоугольники.