Я должен положить несколько 100000 очень старых html документов в веб-приложение. Я видел большие эффекты при использовании OWASP HTML Sanitizer и смог обеспечить создание надлежащим образом дезинфицированного HTML-кода. Моя единственная проблема заключается в том, что HTML Sanitizer ставит жесткие ограничения на максимальную длину строки. Точнее, это максимум 250 байт на строку. К сожалению, это приводит к тому, что некоторые словам получить раскол в середине, и это то же самое с отображенной HTML (помеченная кареткой):Как сохранить дезинфицирующее средство от OWASP HTML от ограничения длины линии?
This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence".
^
Как я могу сказать, дезинфицирующее не до конца строки слишком рано ?
Как некоторые строки из исходного html имеют размер 800 байт или больше, это также помогло бы, если бы я смог сказать дезинфицируемому только вставить перерывы в пробелы.
Как вы используете дезинфицирующее средство? Проверьте источник ограничений, но мне кажется, что примеры с использованием HtmlStreamRenderer просто читают и записывают буферизованные потоки бесконечно. Проверьте пример политики Slashdot. – jdv
Я так и не нашел предела – Marged