2016-03-26 5 views
4

Привет я пытаюсь обучить Tesseract для нового шрифта на основе следующих цифр: digits with transparent backgroundТессеракт Training - новый шрифт только с цифрами

все цифры предусмотрены в PNG файл с прозрачным фоном. Если я создаю из него файл-бокс, тренирую его и т. Д. - все работает отлично!

Теперь проблема, такая же ситуация, но я хочу, чтобы обучать Tesseract, основываясь на следующем изображении: digits without transparent background

, как вы можете увидеть цифры точно так же, а также позиции и так далее. Единственное отличие от изображения 1 заключается в том, что я использовал желтый фон, и с этого момента ничего не работает. Я создаю окно файл я установить ту же позицию, что и для первого изображения:

0 5 4 20 22 0 
1 27 4 38 21 0 
2 48 4 60 22 0 
3 71 3 83 22 0 
4 94 5 109 22 0 
5 119 5 131 22 0 
6 143 5 157 22 0 
7 172 5 184 22 0 
8 197 5 211 23 0 
9 224 5 238 22 0 

хорошо, а затем я обучен коробка, но результирующий файл .tr полностью разряжен я не останавливаться на достигнутом и завершить все остальное шаги. Полученный шрифт нельзя использовать!

Итак, мой вопрос заключается в том, как обучать tesseract распознавать эти цифры независимо от того, какой фон используется для них?

Edit 2016-04-16:

Я использовал ImageMagick для предварительной обработки изображений и я нашел команду, которая работает очень хорошо для всех видов фонов. Поэтому я хотел тренировать tesseract для этих созданных изображений, но это не работает, поскольку я думал, что это будет .... Прежде всего я создал файлы в ящиках, где большинство из них были пустыми. Ну, я использовал веб-сайт для организации позиций персонажа, и я потратил много времени, чтобы сделать обрезку отлично! Впоследствии я создал результирующие файлы .tr, а также другой материал для обучения tesseract.

Наконец я получил «traineddata», я переместил файл в «tessdata» директории тессеракта и использовать его, как он должен быть использован:

tesseract example.jpg output -l mg 

(я назвал новый шрифт «мг»)

Хорошо, независимо от того, что не признает всех или большинство из них! Я открыл эту тему, чтобы найти помощь, до сих пор никто не знает, как это сделать, к сожалению .... Пожалуйста, помогите мне.

Весь тессеракт учебные файлы, которые я использовал и созданные, и можно найти здесь:

Tesseract training directory (не как ни один почтовый/не сжимаются -> Вид всех файлов каталога)

+0

Возможно, OT, но вы можете предварительно обработать, чтобы удалить цвет фона. – xvan

ответ

1

Вы можете изменить любое цветное изображение в двоичное изображение, а затем использовать tesseract на нем, таким образом, независимо от того, какой цвет вы используете, вы всегда будете иметь тот же результат.