2016-12-03 18 views
0

Здесь https://en.wikipedia.org/wiki/Tag_soup#HTML5 написано:Выполняют ли html5-совместимые парсеры процесса html 4 и старше правильно?

HTML5 стремится быть наиболее полным решением проблемы тегов суп до сих пор, оставаясь при этом в качестве backwards- и вперед-совместимый, как возможно. В отличие от XHTML, который отклоняется с обратной стороны совместимость и берет подход, чтобы парсеры становились меньше , толерантно к плохо сформированной разметке, HTML5 признает, что плохо сформировался Код HTML уже существует в больших количествах и, вероятно, будет использоваться и что спецификация должна быть расширена, чтобы обеспечить максимальную совместимость с таким кодом.

Таким образом, спецификация HTML 5 изменила свое определение HTML синтаксис как для размещения общего синтаксиса в использовании сегодня, и явно точно описать, как «плохо формируется код» должен быть обработан анализатором. Обработка плохо сформированного кода теперь имеет место в самой спецификации, надеюсь, уменьшая необходимость в будущих синтаксических анализаторах HTML , чтобы реализовать дополнительные, вне спецификации меры для , касающиеся кода, который он не распознает.

Правильно ли я понимаю, что парсер html5 должен правильно анализировать старые html-страницы (например, html 2.0 или html 4)? Мне нужен синтаксический анализатор html, который обычно обрабатывал большинство интернет-страниц. Поэтому я нашел Google Gumbo: https://github.com/google/gumbo-parser. Там написано, что это парсер HTML5. Подойдет ли он мне тогда, чтобы разобрать не html5 веб-страницы?

ответ

1

Да, это одно из главных отличий между HTML5 и XHTML. Вы должны иметь возможность анализировать любую HTML-страницу с помощью анализатора HTML5.

+0

Благодарим за ответ! – JenyaKh