0
У меня есть строка, как показано ниже.Очистка HTML-файлов, сохраняющих пользовательские теги
<GPE>LUSAKA</GPE> (<ORG>AP</ORG>) -- X&Y Ltd. & M.K. Ltd will be merged.
Как я могу сделать это действительным XML, чтобы мой etree.XMLParser не выдавал ошибку. Мне нужно преобразовать его в нечто подобное.
<GPE>LUSAKA</GPE> (<ORG>AP</ORG>) -- X&Y Ltd. & M.K. Ltd will be merged.
Для этого я пытался использовать tidylib
. Но он удалил все пользовательские теги. Увидеть код
options = {
'wrap': 0,
'indent': 0,
'output-xhtml': 1,
'numeric-entities': 1
}
html, warnings = tidylib.tidy_fragment(data, options)
Выход
LUSAKA (AP) -- X&Y Ltd. & M.K. Ltd will be merged.
Wow! Это поразительно. Ощущение нуба, задающего такой вопрос. BTW любой способ удалить '
' tags? Я имею в виду, есть ли какие-то варианты для этого? –Не думаю, что так ... Боюсь, что это связано с возможностью разбора ... –
Я могу разобрать. Мне нужно убедиться, что он добавляет только
и теги, но больше ничего. –