Я хочу сделать преобразование pdf в текстовый формат и использовать itextsharp dll для этого здесь - это мой код, который конвертирует мой pdf в строковый формат, но в некоторых случаях PDF этот код не работает надлежащим образом например, когда я передаю PDF-файл, и предположим, что в заголовке PDF есть такое имя, как окна Microsoft, а затем он преобразует его, как MMMiicccrrossofft WWiiiindooowsss, и предположим, что есть идентификатор электронной почты, такой как [email protected], чем он дает результат, например xxxyyyzzzz @@@ ggggmaillll.com. может кто-нибудь сказать мне, почему это происходит в некоторых случаях.Невозможно правильно преобразовать текст в текст
public static string ReadPDFFile(string pdfFile)
{
StringBuilder text = new StringBuilder();
if (File.Exists(pdfFile))
{
PdfReader reader = new PdfReader(pdfFile);
for (int i = 1; i <= reader.NumberOfPages; i++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
PdfReader pdfreader = new PdfReader(pdfFile);
string currenttext = PdfTextExtractor.GetTextFromPage(pdfreader, i, strategy);
currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currenttext)));
text.Append(currenttext);
}
try
{
reader.Close();
}
catch
{
}
}
return Convert.ToString(text);
}
спасибо mkl, y right, но я не получаю адрес электронной почты, который в гиперссылке – SANDEEP
после использования обеих этих стратегий im, не получая текст моей гиперссылки – SANDEEP
Интерактивные функции PDF часто появляются не из какого-либо содержимого страницы, а из некоторых * аннотаций *, которые по умолчанию ** не ** обрабатываются путем извлечения текста. – mkl