Я разбираю файл PDF, чтобы извлечь текст с помощью Apache Tika.Удаление специальных символов из текста/PDF с помощью Apache Tika
//Create a body content handler
BodyContentHandler handler = new BodyContentHandler();
//Metadata
Metadata metadata = new Metadata();
//Input file path
FileInputStream inputstream = new FileInputStream(new File(faInputFileName));
//Parser context. It is used to parse InputStream
ParseContext pcontext = new ParseContext();
try
{
//parsing the document using PDF parser from Tika.
PDFParser pdfparser = new PDFParser();
//Do the parsing by calling the parse function of pdfparser
pdfparser.parse(inputstream, handler, metadata,pcontext);
}catch(Exception e)
{
System.out.println("Exception caught:");
}
String extractedText = handler.toString();
Выполнено над текстом и текстом из PDF.
В файле PDF есть специальные символы (например, @/&/£ или знак торговой марки и т. Д.). Как я могу удалить эти специальные символы во время или после процесса извлечения?
W с регулярным выражением на строке? С помощью [String.replace] (https://docs.oracle.com/javase/7/docs/api/java/lang/String.html#replace (java.lang.CharSequence,% 20java.lang.CharSequence))? – Gagravarr