Я кодирую много парсеров. До сих пор я использовал браузер без заголовка HtmlUnit для разбора и автоматизации браузера.Какой HTML Parser является лучшим?
Теперь я хочу разделить обе задачи.
Поскольку 80% моей работы связано только с синтаксическим разбором, я хочу использовать легкий парсер HTML, потому что в HtmlUnit требуется много времени, чтобы сначала загрузить страницу, затем получить исходный код и затем проанализировать его.
Я хочу знать, какой HTML-парсер является лучшим. Парсер будет лучше, если он близок к парсеру HtmlUnit.
EDIT:
К лучшим, я хочу, по крайней мере, следующие функции:
- Скорость
- Удобство найти любой HTMLElement его "ид" или "имя" или "тип тега".
Было бы хорошо, если бы он не очистил грязный HTML-код. Мне не нужно очищать HTML-источник. Мне просто нужен простой способ перемещения по HtmlElements и сбор данных из них.
Как вы относитесь к «лучшим»? Вы имеете в виду скорость, легкость перехода от текущей реализации, соблюдение стандартов W3C, что-то еще, о чем я не думал? Ваш вопрос подразумевает скорость, но также подразумевает время перехода на развитие.Некоторые разъяснения могут помочь другим в рекомендации хороших парсеров, которые будут лучше соответствовать вашим потребностям. – aperkins
Ваше заявление «Я кодирую много парсеров», похоже, не связано с вопросом. Вы имеете в виду «Мне нужно много раз использовать html-парсеры?» – blank
Я думаю, что этот вопрос достаточно конкретный, чтобы быть освобожденным от «неконструктивной» близкой причины. –