2015-03-05 7 views
0

Я должен положить несколько 100000 очень старых html документов в веб-приложение. Я видел большие эффекты при использовании OWASP HTML Sanitizer и смог обеспечить создание надлежащим образом дезинфицированного HTML-кода. Моя единственная проблема заключается в том, что HTML Sanitizer ставит жесткие ограничения на максимальную длину строки. Точнее, это максимум 250 байт на строку. К сожалению, это приводит к тому, что некоторые словам получить раскол в середине, и это то же самое с отображенной HTML (помеченная кареткой):Как сохранить дезинфицирующее средство от OWASP HTML от ограничения длины линии?

This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence". 

                ^

Как я могу сказать, дезинфицирующее не до конца строки слишком рано ?

Как некоторые строки из исходного html имеют размер 800 байт или больше, это также помогло бы, если бы я смог сказать дезинфицируемому только вставить перерывы в пробелы.

+0

Как вы используете дезинфицирующее средство? Проверьте источник ограничений, но мне кажется, что примеры с использованием HtmlStreamRenderer просто читают и записывают буферизованные потоки бесконечно. Проверьте пример политики Slashdot. – jdv

+0

Я так и не нашел предела – Marged

ответ

0

Это меньше ответ, скорее признание: эффект усекающихся линий был вызван какой-то другой частью моего кода, которая ограничивает длину строки на выходе.

+0

Вы должны уметь удалить свой вопрос. Я предлагаю вам сделать это, чтобы никто не получал неправильного впечатления от инструмента. – Philipp

+0

Хорошая идея, но Stackoverflow рекомендует не удалять ответные сообщения. Возможно, поиск моего вопроса поможет кому-то узнать, что дезинфицирующее средство не путается с длинами линий ;-) – Marged

+0

Он также * не делает вас сэндвичем. Этот ответ специфичен для вашего собственного кода, который не был предметом этого вопроса. Я голосую за него. – jdv