2016-12-19 13 views

ответ

0

Вам нужно заглянуть в файл .hocr, возвращенный из Tesseract (для получения более подробной информации вы можете воспользоваться Google hoc). .hocr включает всю ограничительную рамку текста (x, y, ширина, высота, язык и т. Д.). Затем вычислите все ячейки в координатах, которые вы получаете от ввода.

Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

Update:

Я сделал некоторые исследования для вас. Здесь вы «лучшие» (большинство звезд) GitHub репо в JavaScript, вы можете найти на Github

https://github.com/search?utf8= ✓ & д = тессеракт + язык% 3Ajavascript

и лучшим вариантом является tesseract.js с более чем 10 000 звезд и прежнему не совершает недавно

https://github.com/naptha/tesseract.js

enter image description here

часть I Выделенное является .hocr (tesseract.js назвал его html)

+0

Является ли файл .hocr, когда мы используем node-tesseract? (пакет, полученный от npm) Как получить к нему доступ? – Amy

+0

обновил мой ответ, я не пишу nodejs и использую node-tesseract, поэтому не могу ответить на это. –