2012-07-01 1 views
0

Учитывая эту ссылку:не удается получить какое-то ссылку разбора страницы HTML с jsoup

http://www.argenteam.net/movie/40749/American.Reunion.%282012%29

Я пытаюсь получить все ссылки, как это на этой странице, используя jsoup:

<a href="ed2k://|file|American.Reunion.UNRATED.DVDRip.XviD.CD1-COCAIN.avi|734205866|C92C5188830C4F740C69521F67337A45|h=Z5F72XEXRGGXBCMSOR6NS3IBCTFIHQLL|/">CD1</a> 

Проблема в том, что я не могу получить такие ссылки. Выполнение некоторых крайних вещей Я пробовал следующий код, чтобы получить все ссылки на странице, но опять же, этот «a [href]» отсутствует в списке.

doc = Jsoup.connect("http://www.******.net/movie/40749/American.Reunion.%282012%29").get(); 

Elements ed2k = doc.select("a[href]"); 
    for (Element emule:ed2k){ 
      String mula = emule.attr("href"); 
      } 

Как я могу получить все ссылки, начинающиеся со значения «ed2k»? Они находятся на CSS «div.pmovie div.releases div.release-info div.section div.links div a», но я не знаю, в чем проблема, они «невидимы» для моих реализаций. Если вы посмотрите на исходный HTML-код, он не выглядит причудливым, и все браузеры могут очень хорошо управлять такими ссылками. Итак, почему я не добираюсь до их разбора с помощью селекторов jsoup и css? Нужно ли мне использовать Узлы и братья и сестры?

Заранее спасибо.

Final редактировать с помощью раствора:

Сайта был запрашивающим печенье, чтобы показать ссылки мне нужно, так что куки только генерируются с использованием реального браузера, Jsoup не был способен получить всю информацию и он подключался к уменьшенной версии реальной страницы. Отправка определенного файла cookie в соединение Jsoup решила проблему. Пример:

doc = Jsoup.connect(your url here).cookie(cookie name, cookie value).get(); 

ответ

4

Я не вижу никаких таких связей в источник URL вы указали.

В общем, вы можете делать то, что вы просите, используя следующий синтаксис выбора значения атрибута:

[attr^=valPrefix] 
elements with an attribute named "attr", and value starting with "valPrefix"  
Example: a[href^=http:] 

(От http://jsoup.org/apidocs/org/jsoup/select/Selector.html)

+0

Пробовал, что и раньше, но не получилось. Мое быстрое предположение заключается в том, что, похоже, не все ссылки отсутствуют в «doc» после подключения. Проверьте маршрут CSS «html body div # container div # content div # wrapper div.pmovie div.releases div.release-info div.section div.links div a», и вы найдете эти ссылки. –

+1

@Tincho: Я должен согласиться с yotam - нет ссылки, аналогичной тому, что вы опубликовали в своем вопросе на сайте, на котором вы указали ссылку. 1+ для ответа yotam на полезные рекомендации jsoup. –

+0

Извините, но ссылки есть. Вы можете проверить разделы «elinks», перемещая страницу с помощью браузера, или просто проверить исходный HTML. Ответ Yotam - это способ пойти, если исходный HTML загружен ОК в объект «doc». Но здесь это не так. –