Я работаю с Tesseract для извлечения списков лексики из изображений.OCR Конфигурация Tesseract
Списки состоят из двух разных языков. К сожалению, есть только пробелы между lang1 и lang2 (возможно, 3 или 4 пустых символа).
Есть ли способ определить, какую строку взять, чтобы отделить друг от друга.
список может выглядеть следующим образом:
дом, здание Haus, Gebäude дерево Baum ...
Также у меня есть проблемы, чтобы получить разрыв строки после каждого слова пары.
Спасибо!
Edit: я запустить эту команду
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu
извлечь все записи из этой картины
Как вы можете видеть, что не существует четкого разделителя между значениями. В качестве выхода я получаю это
nej nein
jaha aha
Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für
tala (talar, talade, talat) sprechen
språk (-et, —, -en) Sprache
japanska japanisch
engelska englisch
Du då? Und du?
då da, dann, damals, als
bara nur
lite ein bisschen
verb (-et, —, en) Verb
position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!
fråga (-n, -or, -orna) Frage
который тихий хорошо. Но я не знаю, как разделять строку каждой строки в двух строках из-за отсутствующего используемого разделителя.
Просьба поделиться тем, что вы пробовали, и языком программирования, которым вы пользуетесь. Также может помочь обмен изображениями. – hcham1
@ hcham1: Я добавил более подробную информацию. – Brotzka