Как сделать Tess4J получить изображение из файла PDF?Сделать Tess4J получить изображение из файла PDF
Я отправился в файл изображения преобразования в текст с помощью OCR (Tess4J). Он отлично работает, я тестировал изображение, и это здорово.
File imageFile = new File("D:\\HEAD2.png");
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
Но я столкнулся с этой проблемой. Я бы проанализировал PDF-файл, содержащий изображение. Я не поклоны, как это сделать и я не нашел Exemple Tess4J с PDF
я проверил этот пример с Asprise, но я не нашел ни одного примера, как это на Tess4J
import com.asprise.util.pdf.PDFReader;
import com.asprise.util.ocr.OCR;
PDFReader reader = new PDFReader(new File("my.pdf"));
reader.open(); // open the file.
int pages = reader.getNumberOfPages();
for(int i=0; i < pages; i++) {
BufferedImage img = reader.getPageAsImage(i);
// recognizes both characters and barcodes
String text = new OCR().recognizeAll(image);
System.out.println("Page " + i + ": " + text);
}
reader.close(); // finally, close the file.
Большое спасибо –
Этот код действительно хорош, но в моем каталоге, где создаются изображения в формате PDF. Это необходимо –
Возможно, он сохраняет изображения на диск для больших PDF-файлов с несколькими страницами для сохранения некоторой памяти. В настоящее время я не знаю, как обойти это. Но вы можете удалить их .pdf aftwerwards. – sschrass