2011-12-31 3 views
2

я получил следующую реализацию для загрузки файла в формате PDF в Google Docs (взятые из образцов GData API):Загрузить PDF-файл с GData документы питона v3.0 с ОРЗ

def UploadResourceSample(): 
    """Upload a document, and convert to Google Docs.""" 
    client = CreateClient() 
    doc = gdata.docs.data.Resource(type='document', title='My Sample Doc') 

    # This is a convenient MS Word doc that we know exists 
    path = _GetDataFilePath('test.0.doc') 
    print 'Selected file at: %s' % path 

    # Create a MediaSource, pointing to the file 
    media = gdata.data.MediaSource() 
    media.SetFileHandle(path, 'application/msword') 

    # Pass the MediaSource when creating the new Resource 
    doc = client.CreateResource(doc, media=media) 
    print 'Created, and uploaded:', doc.title.text, doc.resource_id.text 

Теперь я хотел бы для выполнения распознавания текста OCR в загруженном файле. Но я не уверен, как включить распознавание OCR в API-интерфейсах gdata docs python. Так что мой вопрос: Есть ли способ включить распознавание распознавания с помощью gdata python v3.0 API в pdf-файле?

ответ

3

мне удалось получить свой документ в формате PDF OCR'ed используя следующий код:

def UploadResourceSample(filename, filepath, fullpath): 
    """Upload a document, and convert to Google Docs.""" 
    client = CreateClient() 
    doc = gdata.docs.data.Resource(type='document', title=filename) 

    path = fullpath 
    print 'Selected file at: %s' % path 

    # Create a MediaSource, pointing to the file 
    media = gdata.data.MediaSource() 
    media.SetFileHandle(path, 'application/pdf') 

    # Pass the MediaSource when creating the new Resource 
    create_uri = gdata.docs.client.RESOURCE_UPLOAD_URI + '?ocr=true&ocr-language=de' 
    doc = client.CreateResource(doc, create_uri=create_uri, media=media) 
    print 'Created, and uploaded:', doc.title.text, doc.resource_id.text 

 Смежные вопросы

  • Нет связанных вопросов^_^