В последнее время я столкнулся с Standard Generalized Markup Language. Я приобрел корпус, который находится в формате SGML от EMILLE/CIIL Corpus. Это документация для этого корпуса:Как удалить теги SGML из текстового файла с помощью Python?
Я хочу, чтобы извлечь только текст в файле. Информация о кодировании и разметке корпуса из документации:
Текст кодируется как двухбайтовый текст в Юникоде. Для получения дополнительной информации о Unicode. Тексты помечены в SGML, используя разметку CES уровня 1. Каждый файл также содержит полный заголовок, который определяет происхождение текста.
Мне сложно скрыть эти теги. Я попробовал «регулярное выражение», а также «красивый суп», но он не работает. Это пример текстового файла. Язык, который я хочу сохранить, - панджаби.
Это XML и есть несколько парсеров XML, что там вы можете использовать. В python мне нравится 'lxml' the best - его интерфейс для библиотек' libxml' и эффективен. 'ElementTree' - это реализация с чистым питоном. Даже не пытайтесь использовать regex для этого, его невероятно сложно для xml. – tdelaney
Другой вариант - использовать XSLT. Предположим, вам нужен текст, но вы также хотите разбить абзацы на '
...
' границы. Это может быть выражено в XSLT компактно (если несколько критически). – tdelaneyСпасибо @tdelaney. Я собираюсь использовать lxml. Я сообщу вам, когда это будет сделано. – ssokhey