Так что регулярные выражения may have side-effects. Какой же предпочтительный метод получения начальных и конечных позиций символов всех HTML-тегов в документе? Разборные библиотеки, такие как Jsoup и NekoHTML, похоже, не предоставляют эту информацию, даже XMLLocator, похоже, не применяется, поскольку он предоставляет только конец текущего события документа.Рекомендуемый метод получения позиций символов всех HTML-тегов в документе
Меня не интересует тип или имя тега, любые его атрибуты или лишение чего-либо из текста. Я просто хочу знать, с чего они начинают и где они заканчиваются.
Для этого вопроса можно предположить, что исходный HTML действителен.
Убедитесь, что это действительный HTML первый –
Хм, я предполагал, что подразумевалось, но я уточнил, что в вопросе. – cqcallaw
Ваш вопрос звучит как средство для достижения цели. Какую бизнес-проблему вы пытаетесь решить? – Bohemian