2016-10-11 6 views
0

Я работаю с Tesseract для извлечения списков лексики из изображений.OCR Конфигурация Tesseract

Списки состоят из двух разных языков. К сожалению, есть только пробелы между lang1 и lang2 (возможно, 3 или 4 пустых символа).

Есть ли способ определить, какую строку взять, чтобы отделить друг от друга.

список может выглядеть следующим образом:

дом, здание Haus, Gebäude дерево Baum ...

Также у меня есть проблемы, чтобы получить разрыв строки после каждого слова пары.

Спасибо!

Edit: я запустить эту команду

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu 

извлечь все записи из этой картины

Swedish - German wordlist

Как вы можете видеть, что не существует четкого разделителя между значениями. В качестве выхода я получаю это

nej nein 

jaha aha 

Vad talar du för språk? Welche Sprachen sprichst du? 
vad för welche, was für 

tala (talar, talade, talat) sprechen 

språk (-et, —, -en) Sprache 

japanska japanisch 

engelska englisch 

Du då? Und du? 

då da, dann, damals, als 

bara nur 

lite ein bisschen 

verb (-et, —, en) Verb 

position (—en, -er, -erna) Stellung, Position 
OBS (= observera) NB, Achtung! 

fråga (-n, -or, -orna) Frage 

который тихий хорошо. Но я не знаю, как разделять строку каждой строки в двух строках из-за отсутствующего используемого разделителя.

+0

Просьба поделиться тем, что вы пробовали, и языком программирования, которым вы пользуетесь. Также может помочь обмен изображениями. – hcham1

+0

@ hcham1: Я добавил более подробную информацию. – Brotzka

ответ

0

Вы можете использовать API Tesseract и попытаться отделить слова, вызвав метод WordFontAttributes класса ResultIterator, чтобы определить, выделено ли одно слово или нет. This GitHub gist показывает, как используется метод.