2011-12-30 3 views
2

Я пытаюсь обработать изображение с помощью ABBYY OCR SDK с использованием кода кода, размещенного in this question, но я не могу получить координаты для конкретного слова, скажем, «OCR», на скриншоте ниже.Неправильные координаты, полученные с помощью изображения с помощью ABBYY OCR SDK

enter image description here

Я хочу обратить накладку (желтый прямоугольник над словом «ОРЗ»), а иногда прямоугольник расположен очень далеко от фактического слова.

ответ

3

XML, который вы получаете, синтезируется в соответствии с this schema.

Для каждого распознанного символа он будет содержать экземпляр charParams, как показано на рисунке in the answer you linked to. Элемент будет содержать координаты в пикселях страницы - то же XML-содержит также элемент page:

<page width="..." height="..." resolution="..." originalCoords="..."> 

, где хранятся ширина и высота изображения. Так l и r для каждого charParams элемента находится в диапазоне 0..width-1 соответствующей страницы и t и b для каждого charParams элемента находится в диапазоне 0..height-1 соответствующей странице.

Также следует прямо указать, что все координаты находятся в пикселях - они полностью согласуются с разрешением. Вот почему всякий раз, когда вы пытаетесь выделить что-либо на изображении, вам нужно учесть масштаб - изображение, скорее всего, не будет отображаться всегда, как ваше программное обеспечение, но будет уменьшено, и вам нужно будет сопоставить координаты страницы с вашим увеличенным - определять координаты изображения и выделять их соответствующим образом.

+0

Да Sharptooth, на самом деле все зависит от разрешения изображения, изображение, которое я использую, составляет 449 * 651, и поэтому координаты, которые я получал для определенного слова, различны. но когда я взял изображение 320 * 480, тогда оно было правильно помещено на слове. – Rakesh

+0

@sharptooth: может ли ABBYY конвертировать tiff в PDF с возможностью поиска? Я задал этот вопрос здесь http://stackoverflow.com/questions/9103044/convert-image-to-searchable-pdf Большое спасибо –

+0

@HarryPham короткий ответ: да, может, долго: http: //www.ocrsdk .com/help/index.html – Nikolay

2

Вы проверили DPI исходного изображения, а также проверьте документацию, чтобы убедиться, что движок OCR использует тот же DPI и не возвращает изображение в точках или какой-либо другой измерительной системе.

Возможно, что прямоугольник, который вы рисуете в iOS, не основан на пикселях, а на другой измерительной системе.

Вам просто нужно проработать процесс, проверить, как вы идете, и решить, откуда эта проблема. Скорее всего, это равномерное масштабирование, а расстояние от фактического слова пропорционально расстоянию слова в верхнем левом углу страницы.

 Смежные вопросы

  • Нет связанных вопросов^_^