2017-02-15 12 views
6

Я новичок в TensorFlow и Deep Learning. Я пытаюсь распознать текст в изображениях сцены природы. Раньше я работал с OCR, но я хотел бы использовать Deep Learning. Текст всегда имеет тот же формат: ABC-DEF 88:88.TensorFlow - распознавание текста на изображении

То, что я сделал, распознает каждый символ/цифру. Это означает, что я обрезал изображение вокруг каждого символа (поэтому каждое изображение дает мне 10 символов), чтобы построить мой тренировочный и тестовый набор, и они построят две conv нейронные сети. Таким образом, мой тренировочный набор представлял собой набор изображений персонажей, а ярлыки были всего лишь символами/цифрами.

Но я хочу пойти дальше. То, что я хотел бы сделать, это просто дать полную картину и вывести весь текст (не один символ, например, в моей предыдущей модели).

Заранее благодарю за любую помощь.

ответ

5

Сложность в том, что вы не знаете, где находится текст. Решение, с учетом изображения, вам нужно использовать скользящее окно для обрезки другой части изображения, а затем использовать классификатор, чтобы определить, есть ли тексты в обрезанной области. Если это так, используйте свой распознаватель символов/цифр, чтобы указать, какие символы/цифры они на самом деле.

Итак, вам нужно обучить другой класс: с учетом обрезанного изображения (размер обрезанных изображений должен быть немного больше, чем размер вашей текстовой области), решите, есть ли внутри.

Просто построить обучающий набор (положительные образцы представляют собой текстовые области, отрицательные образцы и другие области, в случайном порядке купирован от больших изображений) и обучить его ~

+0

Спасибо, но если это классификатор (скользящее окно) должен быть convnet? Учебный набор должен содержать многозначные текстовые области или только один символ? –

+1

Конвек отлично и легко реализуется, если вы используете TensorFlow, Caffe или какую-либо другую систему глубокого обучения, но может быть медленной на этапе обнаружения (потому что вам нужно сдвинуть окно по всему изображению, для каждого изображения есть много окон). Другие модели также работают, например, метод повышения с функциями, подобными Хаару (по Google «харам, как функция adaboost cascade» вы можете найти много материала для распознавания лиц). – soloice

+0

@alexattia Тренировочный набор лучше содержать несколько персонажей. Делая это, вы можете иметь большее окно и уменьшать ложные срабатывания. Если область слишком мала, может быть, некоторые другие вещи будут указаны как буквы/цифры. Скажем, алгоритм может взять некоторый вертикальный край как цифру «1», что ужасно. – soloice

 Смежные вопросы

  • Нет связанных вопросов^_^