Я использую lxml.html.clean дезинфицировать HTML. Кажется, он удаляет атрибуты стиля из всех тегов и для моих целей мне нужно, чтобы атрибуты стиля не удалялись.Цель позади lxml.htm.clean удалить «стиль» из тегов
Перед тем, как начать позволяя, я заинтересован, чтобы понять, есть ли какие-либо последствия для безопасности вокруг не вынимая атрибуты стиля во время санобработки HTML.
Любое понимание по этому вопросу от гуру вне там будет высоко оценен.
(обратите внимание, что мое приложение позволяет конечному пользователю создавать html, который сохраняется на базе базы данных и затем отображается на страницах. «Clean» выше хорошо работает при удалении любого вредоносного html (например, javascript и т. Д.) Из html до он сохраняется для последующего рендеринга).
Per feedparser HTML sanitisation web site - «стиль» нет в списке «safe_attrs»
(Кроме того, жаль, если это пешеход вопрос Я новичок в HTML/дезинфекцию и связанные с ними аспекты безопасности.)
Мне кажется, что это просто [опция, которую вы можете отключить] (http://lxml.de/api/lxml.html.clean.Cleaner-class.html), или это не то, что вы используете ? –
Спасибо, бит! Кажется, что-то, что отключено, однако мне просто интересно, почему по умолчанию атрибуты «стиль» удалены - есть ли проблема безопасности для вредоносного кода, чтобы использовать этот атрибут? (Я усилю вопрос, чтобы уточнить) – user1055761
Может быть, кто-то еще включит это. Для моего, э-э. два бита (gulp), я бы сказал, что это, вероятно, не _security_ per se (сколько вы действительно можете сделать с атрибутами HTML?), так как это источник большого количества ненужных трещин. В этот атрибут можно добавить много, многие библиотеки JavaScript, расширения браузера и другие вещи. –