2013-05-16 3 views
0

Как сделать Tess4J получить изображение из файла PDF?Сделать Tess4J получить изображение из файла PDF

Я отправился в файл изображения преобразования в текст с помощью OCR (Tess4J). Он отлично работает, я тестировал изображение, и это здорово.

File imageFile = new File("D:\\HEAD2.png"); 
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping 
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping 

try { 
    String result = instance.doOCR(imageFile); 
    System.out.println(result); 
} catch (TesseractException e) { 
    System.err.println(e.getMessage()); 
} 

Но я столкнулся с этой проблемой. Я бы проанализировал PDF-файл, содержащий изображение. Я не поклоны, как это сделать и я не нашел Exemple Tess4J с PDF

я проверил этот пример с Asprise, но я не нашел ни одного примера, как это на Tess4J

import com.asprise.util.pdf.PDFReader; 
import com.asprise.util.ocr.OCR; 

PDFReader reader = new PDFReader(new File("my.pdf")); 
reader.open(); // open the file. 
int pages = reader.getNumberOfPages(); 

for(int i=0; i < pages; i++) { 
    BufferedImage img = reader.getPageAsImage(i); 

    // recognizes both characters and barcodes 
    String text = new OCR().recognizeAll(image); 
    System.out.println("Page " + i + ": " + text); 
} 

reader.close(); // finally, close the file. 

ответ

2

использование макияж от pdfutilities.convertpdf2png и использовать его, как вы делали раньше, с изображениями.

+0

Большое спасибо –

+0

Этот код действительно хорош, но в моем каталоге, где создаются изображения в формате PDF. Это необходимо –

+0

Возможно, он сохраняет изображения на диск для больших PDF-файлов с несколькими страницами для сохранения некоторой памяти. В настоящее время я не знаю, как обойти это. Но вы можете удалить их .pdf aftwerwards. – sschrass