Я работаю над программой, которая загружает HTML-страницы, а затем выбирает часть информации и записывает ее в другой файл.Извлечение текста из HTML Java
Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код выглядит следующим образом.
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
я пытался добавить еще один цикл WHILE, который бы сказать программу, чтобы сохранить записи в файл, пока строка не содержит </p>
тега, говоря;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Но это не сработает. Может кто-то помочь.
Мы определенно видим ошибку в экранировании HTML-тегов HTML. – Yishai
Вы цитируете их как код с обратными окнами? – pjp
HTML-парсеры существуют и их много. – 2009-09-06 18:09:42