2015-10-21 12 views
1

Есть несколько веб-сайтов, которые имеют важные данные для меня, но не имеют функций API для извлечения этих данных. И я хочу получить эту информацию, и более того, я хочу создать свой собственный API.Захват и анализ трафика

Первая проблема заключается в том, что эти веб-сайты хранят данные за их страницами входа, поэтому я должен туда войти, прежде чем я смогу получить эти данные.

Следует отметить, что веб-сайты используют JS для извлечения данных и отправки запросов назад, а также протокола SSL, поэтому весь трафик зашифрован.

Моя идея

  1. Захват трафика с помощью Wireshark.
  2. Расшифровать его.
  3. Внимательно посмотрите, хотя пакеты.
  4. В этом проблема. Есть ли какой-нибудь инструмент, который может воссоздать сеанс TCP?

И наконец. Могу ли я создать какой-то API, который подделывает сеанс TCP, и веб-сервер идентифицирует этот сеанс как сеанс с реальным браузером или это невозможно? Я читал о селене, но для этого требуется слишком много ресурсов системы.

+0

wirehark имеет опцию «follow TCP stream», это поможет вам отслеживать определенный сеанс. (щелкните правой кнопкой мыши по кадру, и вы получите его в контекстном меню) – chenchuk

ответ

0

Легче читать данные из инструментов разработчика браузера. Они позволяют просматривать данные и ответы на запросы.

Затем, чтобы имитировать браузер, вам просто нужно отправить аналогичный запрос с теми же файлами cookie и пользовательским агентом, и не будет никакой разницы с реальным браузером.

В современных браузерах (например, в Firefox или Chrome) вы можете перейти на вкладку «Сеть» в инструментах разработчика и экспортировать запрос как команду curl, чтобы впоследствии вы могли отправить тот же запрос из командной строки.