2016-12-19 17 views
-3

Я работаю над приложением, где мне нужно получить чистую цену, отображаемую в любом счете за покупку с его изображения. Я уже извлек редактируемый текст из изображений счета, используя API «tesseract ocr». Теперь мне нужно напечатать только текст «общая сумма». Как извлечь только эту часть (общую цену) из целого счета, имеющего имя, количество и цену?Извлекающая итоговая сумма от торгового счета

+0

Найти текст «общая сумма» и показать номер рядом с ним? –

+0

Я не знаю, на что способен API Tesseract, но только некоторые мысли: (1) это обычно наибольшее число на счете, (2) обычно печатается большими или полужирными шрифтами, (3) оно обычно появляется в верх или низ бумаги –

+0

Спасибо! Я попробую это. Можете ли вы предложить мне какой-то алгоритм, который будет работать правильно для счетов разных типов? –

ответ

0

Короткий ответ, я не думаю, что есть быстрый/удобный метод, который вы можете вызвать напрямую.

Необходимо найти в файле .hocr файл, полученный с Tesseract (вы можете зайти на сайт для получения более подробной информации). .hocr включает в себя всю ограничительную рамку текста (x, y, width, height, language и т. Д.), Затем используйте эти значения, вы можете определить, находятся ли слова в одной строке (слово «Всего» и общая сумма, скорее всего, будут напечатаны на одной строке).

Здесь вы можете скопировать слова, добавить логические операции (возможно, удалить все символы/слова), тогда вы можете получить общее значение.

ps: Моя компания работает над подобным материалом, но мы решили не использовать Tesseract, так как это довольно медленно и нелегко тренироваться (мы имеем дело с квитанциями на нескольких языках). Мы используем API Google Vision.

Надеюсь, что мой ответ поможет: D

+0

спасибо! я обязательно попробую это :) –

 Смежные вопросы

  • Нет связанных вопросов^_^