Я хочу проанализировать XML-файл с помощью Python. Мне не нужна иерархическая структура тегов - все, что я хочу, это простой синтаксический анализатор SAX или Expat. Тем не менее, они оба терпят неудачу с mismatched tag
связанными сообщениями об ошибке, когда XML-файл плохо сформирован.Как игнорировать несогласованные теги при разборе xml в Python
Есть ли способ сказать анализатору игнорировать эти ошибки? Я попытался установить
parser.setFeature(sax.handler.feature_validation, False)
, но это тоже не помогло.
Есть ли решение? Будет SAX/Expat.
Старайтесь избегать называть это XML, когда это не так. Нет такой вещи, как «XML-файл, который не очень хорошо сформирован» - если он не является корректным, то это не XML. И в основном, если вы не хотите следовать правилам XML, то вам нужно сказать, какие правила вы хотите соблюдать. Если это случайная последовательность символов, то единственное, что может разумно поставить парсер, это случайная последовательность символов. –