2017-02-15 6 views
0

Я имею в виду тот, который отсканированное изображение или что-то подобное, и преобразует его в текст или есть способ сделать этоЕсть ли модуль питона, который читает PDF и преобразует его в текст

Edit: Btw это разве имел в виду, чтобы быть дубликатом я хочу знать, если я могу получить текст из сканированного изображения не обычная PDF

+0

поиск "распознавание символов python" https://pypi.python.org/pypi/pytesseract – user5226582

+0

ссылка http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text –

+0

Это дубликат – 0Tech

ответ

0

При использовании онлайн API нормально, вы можете использовать бесплатную OCR.space Online OCR из Python. API поддерживает преобразование PDF-файлов в текст и возвращает данные в виде строки в формате JSON.

payload = {'isOverlayRequired': overlay, 
       'apikey': api_key, 
       'language': language, 
       } 
    with open(filename, 'rb') as f: 
     r = requests.post('https://api.ocr.space/parse/image', 
          files={filename: f}, 
          data=payload, 
         ) 
    return r.content.decode() 

Полный source code available on Github.