2016-08-18 9 views
-3

У меня есть cv в формате pdf, и я хочу извлечь ключевое слово NLP (обработка естественного языка). Здесь есть прикрепленные изображения.Как извлечь ключевое слово из файла pdf asp.net C#?

Но я не знаю, как это сделать, я новичок, пожалуйста, помогите мне спасибо imgimg2

+0

http://asp.syncfusion.com/demos/reporting/pdf/import%20and%20export/TextExtraction/CS/Default.aspx –

+0

Спасибо за response.Let мне проверить пожалуйста –

+0

Спасибо за ответ, но как могу ли я сделать это прагматично, используя asp.net C# –

ответ

0

Существует библиотека с открытым исходным кодом под названием iTextSharp.

Вы можете просто загрузить CV и поместить его на сервер по определенному пути, тогда вы можете прочитать его содержимое в строке и посмотреть, существует ли там ваш текст, как показано ниже.

public bool KeywordExists(string keyWord) 
{ 
    using (PdfReader reader = new PdfReader(pdfPath)) 
    { 
     StringBuilder strText = new StringBuilder();  
     for (int i = 1; i <= reader.NumberOfPages; i++) 
     { 
      strText.Append(PdfTextExtractor.GetTextFromPage(reader, i)); 
      if(strText.Contains(keyWord)) return true; 
     } 
     return false; 
    } 
} 
+1

Если целью является просто проверка существования keyWord, почему бы не запустить Содержит сразу на каждой странице? Таким образом, если keyWord существует на ранних страницах, метод может немедленно вернуться без необходимости извлекать из более поздних страниц. – Martheen

+0

@Martheen спасибо за комментарий, внесли изменения. – Imad

+0

проверю пожалуйста –