2017-01-14 10 views
3

Привет, Я пытаюсь python library pytesseract извлечь текст из изображения. Пожалуйста, найдите код:Ошибка pytesseract Ошибка Windows [Ошибка 2]

from PIL import Image 
from pytesseract import image_to_string 
print image_to_string(Image.open(r'D:\new_folder\img.png')) 

Но пришло следующее сообщение об ошибке:

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "C:\Python27\lib\site-packages\pytesseract\pytesseract.py", line 161, in image_to_string 
config=config) 
File "C:\Python27\lib\site-packages\pytesseract\pytesseract.py", line 94, in run_tesseract 
stderr=subprocess.PIPE) 
File "C:\Python27\lib\subprocess.py", line 710, in __init__ 
errread, errwrite) 
File "C:\Python27\lib\subprocess.py", line 958, in _execute_child 
startupinfo) 
WindowsError: [Error 2] The system cannot find the file specified 

я не нашел конкретное решение этой проблемы. Может ли кто-нибудь помочь мне, что делать. Все, что больше, чтобы быть загружено или от того, где я могу скачать его и т.д ..

Заранее спасибо :)

ответ

2

Я была такая же проблема, и быстро нашла решение после прочтения этого поста:

OSError: [Errno 2] No such file or directory using pytesser

Просто нужно адаптировать его к Windows, замените следующий код:

tesseract_cmd = 'tesseract' 

с:

tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract' 

(нужно дважды \\ бежать первый \ в строке)

0

Вам нужно Тессеракт OCR двигатель ("Tesseract.exe"), установленной на вашем компьютере. Если путь не настроен на вашем компьютере, укажите полный путь в pytesseract.py (tesseract.py).

README

Установка Google Тессеракта OCR (дополнительная информация, как установить двигатель на Linux, Mac OSX и Windows). Вы должны иметь возможность вызвать команду tesseract как tesseract. Если это не так, например, потому что tesseract не находится в вашем PATH, вам придется изменить переменную «tesseract_cmd» в верхней части tesseract.py. В Debian/Ubuntu вы можете использовать пакет tesseract-ocr. Для пользователей Mac OS. пожалуйста, установите homebrew пакет tesseract.

Another thread

1

Вы получаете исключение, потому что подпроцесс не может найти файлы (Tesser исполняемые).

Установка представляет собой процесс 3 шага: ЛИЭС/бинарники

1. Скачать/Установить уровень системы:

Для различных операционных систем вот help. Для MacOS вы можете напрямую установить его с помощью варева.

Установить Google Tesseract OCR (дополнительная информация о том, как установить на Linux, Mac OSX и Windows). Вы должны иметь возможность вызвать команду tesseract как tesseract. Если это не так, например , потому что tesseract не находится в вашем PATH, вам нужно будет изменить переменную tesseract_cmd в верхней части tesseract.py. Под Debian/Ubuntu вы можете использовать пакет tesseract-ocr. Для пользователей Mac OS. установка домашняя упаковка tesseract.

Для Windows:

Установщик для старой версии 3.02 доступен для Windows, от нашей страницы загрузки. Это включает в себя данные по обучению английскому языку. Если вы хотите использовать другой язык, загрузите соответствующие данные обучения, распакуйте его, используя 7-zip, и скопируйте файл .traineddata в каталог 'tessdata', возможно C:\Program Files\Tesseract-OCR\tessdata.

Чтобы получить доступ к Тессеракта-OCR из любого места, возможно, придется добавить каталог, в котором двоичные файлы тессеракт-OCR расположены на пути переменные, вероятно, C:\Program Files\Tesseract-OCR.

Может скачать.exe от here.


2. Установка пакетов Python

pip install pytesseract 

3. Наконец, необходимо иметь Тессеракта бинарный файл в вас PATH.

Или, вы можете установить его во время выполнения:

import pytesseract 

pytesseract.pytesseract.tesseract_cmd = '<path-to-tesseract-bin>' 

Для Windows,:

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' 
  • выше линии сделают работу временно, для постоянного дополнения решения tesseract.exe - PATH - например, PATH=%PATH%;"C:\Program Files (x86)\Tesseract-OCR ".

  • Кроме того, убедитесь, что переменная среды Windows TESSDATA_PREFIX установлена ​​в каталог, содержащий каталог tessdata. Например:

    TESSDATA_PREFIX = C: \ Program Files (x86) \ Тессеракт-OCR

т.е. tessdata Расположение: C:\Program Files (x86)\Tesseract-OCR\tessdata


Ваш пример:

from PIL import Image 
import pytesseract 

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract' 
print pytesseract.image_to_string(Image.open(r'D:\new_folder\img.png'))