Девять лет назад, когда я начал разбирать HTML и свободный текст с Perl, я читал классику Data Munging with Perl. Кто-нибудь знает, планирует ли Дэвид обновить книгу или есть похожие книги или веб-страницы, где объясняются новые модули синтаксического анализа, такие как XML-Twig, Regexp-Grammars и т. Д.?Какие модули Perl подходят для сбора данных?
Я предполагаю, что в течение последних девяти лет некоторые модули по-прежнему так же хороши, как и раньше, некоторые из них обновлены, но с новыми интересными методами, а некоторые имеют лучшие замены. Например, по-прежнему Parse-RecDescent является единственным вариантом бесплатного синтаксического анализа текста или будет Perl 6 повлиял на Regexp-Grammars его замену во многих сценариях?
Я провел четыре года без активного HTML, XML или интеллектуального анализа данных с помощью Perl, поэтому, вероятно, мой инструментарий в этой области немного устарел. Поэтому любая обратная связь для манипуляций HTML и DOM, извлечения/проверки ссылок, веб-тестирования, таких как Mechanize, XML-манипулирование и бесплатный синтаксический анализ текста, от людей, которые обновлены с нынешними модулями CPAN в этой области, будет более чем приветствуемой.
Некоторые новые дополнения к моему инструментарием:
еще в моем инструментарии:
- HTML-TableExtract # не обновлялся с 2006 года
- WWW-Mechanize
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [подробнее ...]
Некоторые из особенностей, возможно, изменились, но понятия совпадают. :) –
Дэйв, было бы приятно прочитать эти обзоры и рецепты в вашем блоге когда-нибудь. –
Да, я бы ОЧЕНЬ заинтересовался чтением этих сообщений. Если вы в конечном итоге размещаете некоторые дополнительные обновления в своем блоге, это будет супер. Ура! – blunders