2010-06-03 1 views
0

Возможно ли прочитать исходный код HTML Web 2.0, который динамически генерируется? Perl LWP с ответом agent-> не подбирает динамически генерируемый HTML-код.Чтение Web 2.0 Исходный код HTML с Perl

Многие сайты сегодня генерируют динамический html. Если я занимаюсь покупками по лучшим ценам, и цены динамически вывозятся и сбрасываются, тогда я не в бизнесе.

Достигнуты ли мы в конце эпохи?

ответ

2

Да, мы достигаем конца эпохи ненадежного скрипирования экрана и начала эры четко определенных API.

Лично я ненавижу термин «Web 2.0», но как минимум Wikipedia перечисляет веб-API как важную часть всего этого.

2

Если «Web 2.0 HTML» и «динамически сгенерированный» вы имеете в виду «DOM, созданный с помощью JavaScript», вам необходимо обработать JavaScript.

Вы можете сделать это вручную и написать код, чтобы очистить данные из JS или использовать любые источники данных, которые JS делает, или вы можете использовать JS-распознающий парсер (обычно я использую MozRepl в эти дни).

Имейте в виду, что условия многих сайтов запрещают очистку экрана.

Лучшим решением является использование API, который стабилен и не подлежит изменению. Документация для сайта, на который вы хотите получить данные, может описывать API, или вы можете связаться с разработчиками и посмотреть, могут ли они сделать их доступными для вас.