первого вы открываете книгу в вашем браузере с сетевым захватом (в разработчике/с инструментами). вы должны открыть много страниц в разных местах с масштабированием и без увеличения , а затем просмотреть полученные данные.
вы увидите, что для каждой новой страницы, которую вы открываете, браузер запрашивает новый файл (или файлы).
это означает, что для каждой страницы есть файл, и с этим файлом ваш браузер создает изображение страницы. (обычно есть один файл для страницы, и это какой-то формат изображения, но я столкнулся с кодировкой base64 и изображением, вырезанным на четыре части).
поэтому мы хотим загрузить и сохранить все файлы, содержащие страницы книги.
теперь, как правило, в адресах файлов имеется согласованный шаблон, и в нем есть несколько увеличивающихся чисел (как мы можем видеть в захваченных данных разницу между следующими файлами), и зная количество страниц в книге, мы могут догадываться о оставшихся адресах до конца книги (и, конечно, загружать все файлы программно в цикл for) и мы могли бы остановиться здесь.
, но иногда адреса трудно угадать или мы хотим, чтобы процесс был более автоматическим.
в любом случае мы хотим программно увеличить количество страниц и всех адресов страниц.
, поэтому мы должны проверить, как браузер знает это. обычно браузер загружает некоторые файлы в начале и один из них содержит количество страниц в книге (и, возможно, их адрес). мы просто должны проверить захваченные данные и найти этот файл для его анализа в нашей прораме.
в конце есть вопрос безопасности:
некоторые веб-сайты пытаются защитить свои данные так или иначе (Ussually использованием куки или аутентификации HTTP). но если ваш браузер может получить доступ к данным, вам просто нужно отслеживать, как он это делает и имитировать.
(если это файлы cookie, сервер ответит в какой-то момент заголовком Set-Cookie:
, возможно, вам необходимо войти в систему, чтобы просмотреть книгу, чтобы вы также отслеживали этот процесс. Обычно это сообщение через сообщения messeges и cookie. If это http-аутентификация, вы увидите что-то вроде Authorization: Basic
в заголовках запроса).
в вашем случае ответ прост: (все файлы имена относительно основного каталога файлов: «http://en-gage.kaplan.co.uk/LMS/content/live_content_v2/acca/exam_kits/2014-15/p6_fa2014/») есть „manifest.zip“ файл, который содержит файл „pages.xml“ который содержит количество файлов и ссылок на них. мы видим, что для каждой страницы есть большой палец, маленький и большой картинки, поэтому мы хотим просто больших.
вам просто нужна программа, которая будет зацикливать эти адреса (из Paper/Pages/491287/Zoom.jpg в Paper/Pages/491968/Zoom.jpg).
Наконец, вы можете объединить все jpg в pdf.
Что вы пробовали? Какой язык и библиотеки вы используете? Если вы пытаетесь сделать это вручную, а не в программном обеспечении, вы должны удалить этот вопрос и попросить его на http://superuser.com/. – LJNielsenDk