Я новичок в TensorFlow и Deep Learning. Я пытаюсь распознать текст в изображениях сцены природы. Раньше я работал с OCR, но я хотел бы использовать Deep Learning. Текст всегда имеет тот же формат: ABC-DEF 88:88
.TensorFlow - распознавание текста на изображении
То, что я сделал, распознает каждый символ/цифру. Это означает, что я обрезал изображение вокруг каждого символа (поэтому каждое изображение дает мне 10 символов), чтобы построить мой тренировочный и тестовый набор, и они построят две conv нейронные сети. Таким образом, мой тренировочный набор представлял собой набор изображений персонажей, а ярлыки были всего лишь символами/цифрами.
Но я хочу пойти дальше. То, что я хотел бы сделать, это просто дать полную картину и вывести весь текст (не один символ, например, в моей предыдущей модели).
Заранее благодарю за любую помощь.
Спасибо, но если это классификатор (скользящее окно) должен быть convnet? Учебный набор должен содержать многозначные текстовые области или только один символ? –
Конвек отлично и легко реализуется, если вы используете TensorFlow, Caffe или какую-либо другую систему глубокого обучения, но может быть медленной на этапе обнаружения (потому что вам нужно сдвинуть окно по всему изображению, для каждого изображения есть много окон). Другие модели также работают, например, метод повышения с функциями, подобными Хаару (по Google «харам, как функция adaboost cascade» вы можете найти много материала для распознавания лиц). – soloice
@alexattia Тренировочный набор лучше содержать несколько персонажей. Делая это, вы можете иметь большее окно и уменьшать ложные срабатывания. Если область слишком мала, может быть, некоторые другие вещи будут указаны как буквы/цифры. Скажем, алгоритм может взять некоторый вертикальный край как цифру «1», что ужасно. – soloice