Я протестировал с образцом текста как буквенно-цифровой, так и цифры. Я использую режим цифр.Tesseract OCR не смог распознать номера полной высоты
Как распознать цифры, как на следующем рисунке:
Я думаю, что это из-за полной высоты. Я также попытался преобразовать его в .jpg используя некоторые онлайн-инструменты (не код)
Я использую pytesseract 0.1.6, но я думаю, что это проблема Tesseract.
Вот мой код:
def classify(hash):
socket = urllib.urlopen(hash)
image = StringIO(socket.read())
socket.close()
image = Image.open(image)
number = image_to_string(image, config='digits')
mapping[hash] = number
return number
classify('any url')
Включите картинку прямо в вашем вопросе, а не только ссылку на него , – Almo
Что вы подразумеваете под полной высотой? – tobltobs
Я имею в виду, что текст занимает всю высоту изображения. Скажем, у вас есть 1000x100 изображений и букв высотой 100. – user3002996