Ну, я очень стараюсь выяснить, как извлекать информацию с веб-страницы и переносить ее в мою программу (на Java).Как «сканировать» веб-сайт (или страницу) для получения информации и вносить его в мою программу?
Например, если я знаю точную страницу, я хочу получить информацию, для простоты на странице «Лучшая покупка», как мне получить нужную информацию, которая мне нужна, с этой страницы? Как название, цена, описание?
Что бы этот процесс даже назывался? Я понятия не имею, чтобы даже начать исследовать это.
Edit: Хорошо, я бегу тест для JSoup (тот, отправленный BalusC), но я получаю эту ошибку:
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
У меня есть Apache Commons
You есть проблема с LinkedList, потому что LinkedList.peekFirst появился в java 1.6, и вы, кажется, используете ухо lier version – zamza
Этот процесс обычно называется «скрипинг экрана» и используется, когда API (например, SOAP) недоступен, но веб-интерфейс. Это связано с тем, что ваше приложение претендует на роль веб-браузера и вручную обрабатывает страницы HTML (более или менее). Я предлагаю вам рассмотреть один из перечисленных ниже API, которые автоматизируют большую часть синтаксического анализа. –