2009-09-11 3 views
1

Я ищу способ определить самые «разные» или «узнаваемые» символы N ASCII ... Например, если N = 10, то какие будут самые разные N символов в ASCII-наборе от 0x21 до 0x7E? Очевидно, что символ «X» сильно отличается от «O» (буква), но «O» (буква) очень похож на «0» (ноль). Предполагая ограниченное подмножество символов OCR, такое, что ноль и буква O будут обнаружены только как один или другой, и не нужно было беспокоиться о том, был ли он нулем или буквой O, что было бы самым разным N символы, которые типичные двигатели OCR (например, Tesseract) легко распознают из плохого качества входного изображения? Предположения. такие как «+» и «t», могут ошибочно приниматься за друг друга. могут быть сделаны, и, следовательно, каждый входной символ, будь то «+» или «t», будет соответствовать только одному или другому.OCR - большинство «разных» или «узнаваемых» символов ASCII?

Спасибо, Бен

+0

Я думаю, что выбор персонажей будет зависеть от метода их распознавания. почему ты хочешь сделать это? – Amok

+0

На самом деле, я думаю, что это будет больше зависеть от FONT, чем что-либо еще ... –

+3

Также не очень полезно задать вопрос для отдельных отдельных букв, так как ошибки OCR часто путают «d» с «cl», «m» с «rn» и т. д. – ShreevatsaR

ответ

4

К сожалению, я не думаю, что для этого будет единственный уникальный ответ.

Это будет зависеть от шрифта: Сравните различные способы представления 0, f, s, а также стилистические расцветки.

Это будет зависеть от типа повреждения, которое персонажи получают перед сканированием, некоторые из них могут быть более устойчивыми к смазыванию, другие - к ударам, другие - к перезаписи.

Если вы ищете представление, которое лучше всего подходит для выживания, отсканированного и распознанного, возможно, лучший штрих-код 1D или 2D?

1

только один способ ответить на этот вопрос: протестировать его. Создайте набор выборок для каждой буквы и запустите OCR для каждого образца. Письма, которые OCR получает право наиболее часто, являются наиболее «узнаваемыми»; буквы, которые OCR чаще всего ошибаются, являются самыми «разными».