XML, который вы получаете, синтезируется в соответствии с this schema.
Для каждого распознанного символа он будет содержать экземпляр charParams
, как показано на рисунке in the answer you linked to. Элемент будет содержать координаты в пикселях страницы - то же XML-содержит также элемент page
:
<page width="..." height="..." resolution="..." originalCoords="...">
, где хранятся ширина и высота изображения. Так l
и r
для каждого charParams
элемента находится в диапазоне 0..width-1
соответствующей страницы и t
и b
для каждого charParams
элемента находится в диапазоне 0..height-1
соответствующей странице.
Также следует прямо указать, что все координаты находятся в пикселях - они полностью согласуются с разрешением. Вот почему всякий раз, когда вы пытаетесь выделить что-либо на изображении, вам нужно учесть масштаб - изображение, скорее всего, не будет отображаться всегда, как ваше программное обеспечение, но будет уменьшено, и вам нужно будет сопоставить координаты страницы с вашим увеличенным - определять координаты изображения и выделять их соответствующим образом.
Да Sharptooth, на самом деле все зависит от разрешения изображения, изображение, которое я использую, составляет 449 * 651, и поэтому координаты, которые я получал для определенного слова, различны. но когда я взял изображение 320 * 480, тогда оно было правильно помещено на слове. – Rakesh
@sharptooth: может ли ABBYY конвертировать tiff в PDF с возможностью поиска? Я задал этот вопрос здесь http://stackoverflow.com/questions/9103044/convert-image-to-searchable-pdf Большое спасибо –
@HarryPham короткий ответ: да, может, долго: http: //www.ocrsdk .com/help/index.html – Nikolay