Добавление только пользовательских слов в Tesseract

Я использую Tesseract в своем приложении для Android. Я определил файл «user-words», и я добавил выделенную строку для ocr, чтобы рассмотреть файл пользовательских слов.Добавление только пользовательских слов в Tesseract

String language = "deu"; 
datapath = getFilesDir()+ "/tesseract/"; 
Tess = new TessBaseAPI(); 

checkFile(new File(datapath + "tessdata/")); 
**Tess.setVariable("user_words_suffix","deu.user-words");** 
Tess.init(datapath, language);

Я не определял файл пользовательских шаблонов, так как в моих изображениях нет определенного шаблона. Я только что скопировал txt-файл UTF-8 из-за слов-должников в папке tessdata. Достаточно ли этого для конфигурации ocr? или Должен ли я распаковать due_traindata и добавить этот файл в due_traindata, а затем упаковать его? если да, вы можете дать мне некоторый намек на то, как это сделать.

источник

2016-12-14 MKH

Вам не нужно указывать префикс языка в коде:

Tess.setVariable("user_words_suffix", "user-words");

Убедитесь, что префикс к файлу совпадает с указанным кодом языка, а именно - deu.user-words.

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

источник

2016-12-16 04:17:12 nguyenq

Добавление только пользовательских слов в Tesseract

ответ

Смежные вопросы