Как удалить все атрибуты из тегов HTML в строке, кроме «alt» и «src», используя Java?Как удалить атрибуты HTML, кроме «src» и «alt» в JAVA
И далее .. как получить контент из всех атрибутов «src» в строке?
:)
Как удалить все атрибуты из тегов HTML в строке, кроме «alt» и «src», используя Java?Как удалить атрибуты HTML, кроме «src» и «alt» в JAVA
И далее .. как получить контент из всех атрибутов «src» в строке?
:)
ОК, решил это как-то.
Использовал библиотеку HTMLCleaner для синтаксического анализа входных данных в допустимом формате.
Затем я использую парсер DOM для перебора всего и разделяю все запрещенные теги и атрибуты.
(и некоторые незначительные уродливые хаки;))
Это было своего рода много работы.
Вы можете:
Что бы вы ни делали, не пытайтесь делать это с регулярными выражениями.
Я попытался использовать парсер DOM, но для этого нужно, чтобы html-теги были идеально выровнены, как в XML-файле. Я использую это для пользовательских входных данных, и это может быть в любом формате! – 2009-02-18 15:32:33