Кажется, что каждый вопрос о переполнении stackoverflow, когда ассер использует регулярное выражение для захвата некоторой информации из HTML, неизбежно будет иметь «ответ», в котором говорится, что нельзя использовать регулярное выражение для анализа HTML.Использование регулярных выражений для синтаксического анализа HTML: почему бы и нет?
Почему нет? Я знаю, что есть цитаты-безоговорочные «реальные» парсеры HTML, такие как Beautiful Soup, и я уверен, что они мощные и полезные, но если вы просто делаете что-то простое, быстрое или грязное, то зачем беспокоиться используя что-то настолько сложное, когда несколько выражений regex будут работать нормально?
Кроме того, есть ли что-то принципиальное, что я не понимаю о регулярном выражении, что делает их плохим выбором для синтаксического анализа вообще?
я думаю, что это боян из http://stackoverflow.com/questions/133601 – jcrossley3
Потому что только Чак Norris * может * анализировать HTML с регулярным выражением (как объясняется в этой знаменитой вещи Zalgo: http://stackoverflow.com/questions/1732348/regex-match-open-tags-ex СЕРТ-XHTML-самодостаточный-теги). – takeshin
Этот вопрос побудил меня задать еще один вопрос, который каким-то образом связан. Если вам интересно: [Почему невозможно использовать регулярное выражение для анализа HTML/XML: формальное объяснение в терминах непрофессионала] (http://stackoverflow.com/q/6751105/146792) – mac