У меня есть свод газет в виде сырых текстовых файлов, и я хотел бы получить от них редакционные статьи. Большинство редакционных статей начинаются после третьего экземпляра слова «РЕДАКЦИЯ» во всех шапках и заканчиваются нижним колонтитулом «sfbg».regex- using CategorizedPlaintextCorpusReader, чтобы найти n-й экземпляр слова
Моя идея - использовать регулярные выражения python для извлечения этих редакций. Я использую CategorizedPlaintextCorpusReader.
Я пробовал искать список методов CategorizedPlaintextCorpusReader самостоятельно, но я пришел пустым.
'(. *? РЕДАКЦИИ) {3} (. *?) Sfbg' – sweaver2112
Не могли бы вы уточнить, пожалуйста? Я по-прежнему довольно новичок в программировании в целом, и у меня совсем нет моего синтаксиса. –