Я пытаюсь дезинфицировать HTML-файл, и он работает неправильно. Я хочу, чтобы все были полностью обычным текстом, за исключением тегов абзаца и разрыва строки. Вот мой санитарный код (многоточие означает другой код в моем классе, который не имеет отношения к проблеме):Rails HTML Sanitizing
.
.
.
include ActionView::Helpers::SanitizeHelper
.
.
.
def remove_html(html_content)
sanitized_content_1 = sanitize(html_content, :tags => %w(p br))
sanitized_content_2 = Nokogiri::HTML(sanitized_content_1)
sanitized_content_2.css("style","script").remove
return sanitized_content_2
end
Это не работает правильно. Here is the original HTML file, из которого функция считывает свой вход, и here is the "sanitized" code it is returning. Он уходит в тело тегов CSS, JavaScript и HTML Comment Tags. Возможно, это может быть и в других вещах, которые я не заметил. Пожалуйста, сообщите, как полностью удалить все CSS, HTML и JavaScript, кроме тегов абзацев и тегов.
Это похоже больше на синтаксический анализ, чем на дезинфекцию. –
Ничего себе, формат Scribd неудобен для решения. Можете ли вы представить суть? –