0

Я хочу очистить HTML-коды по указанному ниже URL-адресу. Проблема в том, что я получаю эту ошибку: -org.jsoup.HttpStatusException: URL-адрес получения ошибок HTTP. Статус = 504 Ошибка при попытке очистить содержимое HTML

Aug 14, 2016 6:40:36 PM booksscraper.BooksScraper main SEVERE: null org.jsoup.HttpStatusException: HTTP error fetching URL. Status=504, URL= http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971&sectionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:590) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:227) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:216) at booksscraper.BooksScraper.main(BooksScraper.java:52)

Я установил тайм-аут на бесконечность, но это не помогло. HTML-код для этого сайта чрезвычайно велик, то есть 14833 строки кода. Это причина проблемы?

String url = "http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971&sectionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse"; 

Document doc = Jsoup.connect(url) 
       .maxBodySize(0) 
       .timeout(0) 
       .get(); 

System.out.println(doc); 

ответ

0

мне удалось подключиться к веб-сайте, установив UserAgent в Mozilla/5.0 (X11, Linux x86_64) AppleWebKit/537.36 (KHTML, например, Gecko) Chrome/51.0.2704.106 Safari/537.36. Но на это потребовалось около 4 минут.

0

Это не API Jsoup или проблема с кодом. Причиной сообщения об ошибке является то, что URL-адрес не отвечает и выдает сообщение об ошибке «Gateway Timeout» (прокси-сервер не получил своевременного ответа от восходящего сервера).

Сообщение об исключении из программы: -

HTTP error fetching URL. Status=504

HTTP Код состояния: 504

504 Gateway Timeout

The server, while acting as a gateway or proxy, did not receive a timely response from the upstream server specified by the URI (e.g. HTTP, FTP, LDAP) or some other auxiliary server (e.g. DNS) it needed to access in attempting to complete the request.

Note: Note to implementors: some deployed proxies are known to 
    return 400 or 500 when DNS lookups time out. 
+0

Благодарим вас за ответ notionquest. Тем не менее, время ожидания шлюза отображается только при прямом вводе URL. Если мы перейдем к URL через этот «[URL] (http://www.bkstr.com/sheridandavisstore/shop/textbooks-and-course-materials?cm_sp=GlobalJuly122016BTS-_-ShipTextbooks-_-943)", нет время ожидания шлюза. Как это происходит? – Rokin