2010-06-15 4 views
2

Я ищу способ имитировать поведение ресурсов браузера.Имитация ресурсов браузера Расширение поведения с помощью Python

Поток я пытаюсь адрес является следующее:

  • Access начальный URL (например, http://example.dmn/index.htm)
  • Разбираем ответ HTML получил (например, index.htm)
  • Найти ресурсы что браузер будет получать в результате индекса разбора, например:
    • изображения
    • вспышки
    • Встроенные видео/аудио
    • Рамки/плавающие фреймы
  • Повторите процесс рекурсивно для каждого нового ресурса найдены

Я не ожидал, чтобы следовать по ссылкам (HREF), только страницы ресурсов, которые будут автоматически выбираться браузером при первом доступе к странице.

У вас есть предложение, как преформировать эту симуляцию?

Существуют ли какие-либо проекты/библиотеки Python, которые могут вам помочь?

Благодаря

+0

Нужно ли иметь дело с динамическими сайтами, например. с javascript, который может применять опрокидывание/другой DHTML? Если это так, я сомневаюсь в чем-либо, но экземпляр браузера будет полезен. –

ответ

1

Возможно, вы захотите посмотреть spider.py и robotparser. Запрещая тем, что вы делаете то, что хотите автоматически, вы можете самостоятельно выкопать в суп с HTML BeautifulSoup.

1

Возможно, вы захотите взглянуть на Scrapy.

Он может не предоставлять все точные функции, которые вам нужны, но их можно легко расширить.