Мне нужно ввести изображение и координаты. Текст, присутствующий во входной координате, должен считываться как выход. Как это сделать, используя node-tesseract?Tesseract - Как извлечь текст из изображения для входных координат?
ответ
Вам нужно заглянуть в файл .hocr, возвращенный из Tesseract (для получения более подробной информации вы можете воспользоваться Google hoc). .hocr включает всю ограничительную рамку текста (x, y, ширина, высота, язык и т. Д.). Затем вычислите все ячейки в координатах, которые вы получаете от ввода.
Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/
Update:
Я сделал некоторые исследования для вас. Здесь вы «лучшие» (большинство звезд) GitHub репо в JavaScript, вы можете найти на Github
https://github.com/search?utf8= ✓ & д = тессеракт + язык% 3Ajavascript
и лучшим вариантом является tesseract.js
с более чем 10 000 звезд и прежнему не совершает недавно
https://github.com/naptha/tesseract.js
часть I Выделенное является .hocr
(tesseract.js
назвал его html
)
Я знаю, что это старый нить, но у меня было такое же требование, не может найти решение, поэтому я изменил модуль и размещен на Git:
Является ли файл .hocr, когда мы используем node-tesseract? (пакет, полученный от npm) Как получить к нему доступ? – Amy
обновил мой ответ, я не пишу nodejs и использую node-tesseract, поэтому не могу ответить на это. –