Я хочу очистить HTML-коды по указанному ниже URL-адресу. Проблема в том, что я получаю эту ошибку: -org.jsoup.HttpStatusException: URL-адрес получения ошибок HTTP. Статус = 504 Ошибка при попытке очистить содержимое HTML
Aug 14, 2016 6:40:36 PM booksscraper.BooksScraper main SEVERE: null org.jsoup.HttpStatusException: HTTP error fetching URL. Status=504, URL= http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971§ionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:590) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:227) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:216) at booksscraper.BooksScraper.main(BooksScraper.java:52)
Я установил тайм-аут на бесконечность, но это не помогло. HTML-код для этого сайта чрезвычайно велик, то есть 14833 строки кода. Это причина проблемы?
String url = "http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971§ionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse";
Document doc = Jsoup.connect(url)
.maxBodySize(0)
.timeout(0)
.get();
System.out.println(doc);
Благодарим вас за ответ notionquest. Тем не менее, время ожидания шлюза отображается только при прямом вводе URL. Если мы перейдем к URL через этот «[URL] (http://www.bkstr.com/sheridandavisstore/shop/textbooks-and-course-materials?cm_sp=GlobalJuly122016BTS-_-ShipTextbooks-_-943)", нет время ожидания шлюза. Как это происходит? – Rokin