2016-11-30 6 views
1

Я могу сканировать изображение в формате JPG с помощью Tesseract, я могу сканировать обычный PDF-файл с помощью ITextSharp и получать текст из них. Но я не могу найти способ получить текст из сканированного PDF с расширением .PDF или преобразовать PDF в изображение, чтобы затем проверить его с помощью Tesseract. Есть ли какие-то варианты, которые мне не хватает? Благодаря!Преобразование отсканированного PDF-файла в изображение

ответ

0

Предполагая, что вы сканировали документ PDF. Во-вторых, если у вас есть только текст в документе PDF. Вы можете создавать изображения с текстом из следующего метода

private Image DrawText(String text, Font font, Color textColor, Color backColor) 
{ 
    //first, create a dummy bitmap just to get a graphics object 
    Image img = new Bitmap(1, 1); 
    Graphics drawing = Graphics.FromImage(img); 

    //measure the string to see how big the image needs to be 
    SizeF textSize = drawing.MeasureString(text, font); 

    //free up the dummy image and old graphics object 
    img.Dispose(); 
    drawing.Dispose(); 

    //create a new image of the right size 
    img = new Bitmap((int) textSize.Width, (int)textSize.Height); 

    drawing = Graphics.FromImage(img); 

    //paint the background 
    drawing.Clear(backColor); 

    //create a brush for the text 
    Brush textBrush = new SolidBrush(textColor); 

    drawing.DrawString(text, font, textBrush, 0, 0); 

    drawing.Save(); 

    textBrush.Dispose(); 
    drawing.Dispose(); 

    return img; 

} 

Ссылка: How to generate an image from text on fly at runtime