Regex in WWW :: Механизм в Perl

Я не уверен, что является правильным синтаксисом для url_regex, используемого в WWW :: Mechanize.Regex in WWW :: Механизм в Perl

Я собираю все ссылки с веб-страницы, которые начинаются с HTTP: // и они имеют следующий формат:

http://google.com

и нет,

http://google.com/dir/ 
http://google.com/dir/dir2/

Итак, я используйте следующее:

@links=$mech->find_all_links(url_regex=>qr/^http:\/\/.*?\//)

И это все еще фиксирует URL-адреса с дополнительными путями в них.

Я проверил свое регулярное выражение на regexpal.com, и он работает хорошо. Но по какой-то причине url_regex ожидает другой синтаксис.

Спасибо.

источник

2012-06-28 Neon Flash

Вы должны использовать:

@links=$mech->find_all_links(url_regex=>qr/^http:\/\/[^\/]*\/?$/)

, который гласит:

Строка должна начинаться ^ с http:// следуют любой комбинации (даже нет/пустой) характеров других, чем хлестать [^\/]* следовали по необязательной косой чертой \/? в конце $.

источник

2012-06-28 17:41:57

спасибо. Оно работает. Не могли бы вы еще немного объяснить свое регулярное выражение? Мое регулярное выражение не работало, так как точка также соответствовала бы символу прямой косой черты, поэтому нам нужно отменить его в классе символов. Это причина? –

@NeonFlash - ответ обновлен с комментарием –

ответ

Смежные вопросы