Я хотел бы выполнить некоторые XQuery команды с помощью Basex над источником HTML, который может быть полон <script>
, <style>
узлов, которые должны быть удалены, а также незакрытые тэги (<br>
, <img>
), которые должны быть пара. (например, грязный источник this page)Чистые и конвертировать HTML в XML для Basex
«Converting HTML to XML» предлагает использовать Tidy, но у него нет графического интерфейса и не работает корректно на моем источнике (он ничего не выводит), и я сомневаюсь, что он удаляет скрипты и другие ненужные теги. Между прочим, он очень старый.
Поскольку я не нашел вопросов, которые касаются моих потребностей, я снова спросил его. потому что он очень близок к инструментам для кодирования и запросов, я спросил его здесь.
На близких избирателей: Я не вижу, как этот вопрос ищет рекомендации продукта и не требует какого-либо кода требует, чтобы воспроизвести проблему. –