Tesseract - Как извлечь текст из изображения для входных координат?

Мне нужно ввести изображение и координаты. Текст, присутствующий во входной координате, должен считываться как выход. Как это сделать, используя node-tesseract?Tesseract - Как извлечь текст из изображения для входных координат?

источник

2016-12-19 Amy

Вам нужно заглянуть в файл .hocr, возвращенный из Tesseract (для получения более подробной информации вы можете воспользоваться Google hoc). .hocr включает всю ограничительную рамку текста (x, y, ширина, высота, язык и т. Д.). Затем вычислите все ячейки в координатах, которые вы получаете от ввода.

Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

Update:

Я сделал некоторые исследования для вас. Здесь вы «лучшие» (большинство звезд) GitHub репо в JavaScript, вы можете найти на Github

https://github.com/search?utf8= ✓ & д = тессеракт + язык% 3Ajavascript

и лучшим вариантом является tesseract.js с более чем 10 000 звезд и прежнему не совершает недавно

https://github.com/naptha/tesseract.js

часть I Выделенное является .hocr (tesseract.js назвал его html)

источник

2016-12-19 03:54:57

Является ли файл .hocr, когда мы используем node-tesseract? (пакет, полученный от npm) Как получить к нему доступ? – Amy

обновил мой ответ, я не пишу nodejs и использую node-tesseract, поэтому не могу ответить на это. –

Я знаю, что это старый нить, но у меня было такое же требование, не может найти решение, поэтому я изменил модуль и размещен на Git:

https://github.com/desmondmorris/node-tesseract/issues/46

источник

2017-05-22 12:44:35 SPlatten

Tesseract - Как извлечь текст из изображения для входных координат?

ответ

Смежные вопросы