2012-06-28 3 views
0

Я не уверен, что является правильным синтаксисом для url_regex, используемого в WWW :: Mechanize.Regex in WWW :: Механизм в Perl

Я собираю все ссылки с веб-страницы, которые начинаются с HTTP: // и они имеют следующий формат:

http://google.com 

и нет,

http://google.com/dir/ 
http://google.com/dir/dir2/ 

Итак, я используйте следующее:

@links=$mech->find_all_links(url_regex=>qr/^http:\/\/.*?\//) 

И это все еще фиксирует URL-адреса с дополнительными путями в них.

Я проверил свое регулярное выражение на regexpal.com, и он работает хорошо. Но по какой-то причине url_regex ожидает другой синтаксис.

Спасибо.

ответ

1

Вы должны использовать:

@links=$mech->find_all_links(url_regex=>qr/^http:\/\/[^\/]*\/?$/) 

, который гласит:

Строка должна начинаться ^ с http:// следуют любой комбинации (даже нет/пустой) характеров других, чем хлестать [^\/]* следовали по необязательной косой чертой \/? в конце $.

+0

спасибо. Оно работает. Не могли бы вы еще немного объяснить свое регулярное выражение? Мое регулярное выражение не работало, так как точка также соответствовала бы символу прямой косой черты, поэтому нам нужно отменить его в классе символов. Это причина? –

+0

@NeonFlash - ответ обновлен с комментарием –