Я довольно новичок в Python, поэтому мой вопрос может быть глупым, но даже при чтении многих потоков я не нашел ответа на свой вопрос.Чтение «сырых» строк Unicode в Python
У меня есть документ с исходным кодом, который содержит html, xml, latex и другие текстовые форматы и который я пытаюсь получить в формате только латекса.
Поэтому я использовал python для распознавания различных команд как регулярных выражений и замены их соответствующей латексной командой. Пока все хорошо.
Теперь у меня есть некоторые знаки типа «raw-type» Unicode, такие как греческие буквы. Unfortunaltly почти готов сделать это вручную. Поэтому я ищу способ сделать это умным способом. Есть ли способ для Python распознавать/читать их? И как я могу сказать, что python распознает/читает, например. Пи написал как греческое письмо?
Минимальный пример кода, который я использую:
fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()
new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()
Я не уверен, является ли это важная информация или нет, но я использую Python 2.6 работает на окнах.
Я был бы очень рад, если бы кто-нибудь мог дать мне подсказку, по крайней мере, где найти соответствующую информацию или как это может сработать. Или я совершенно не прав, и Python не может выполнить эту работу ...
Большое спасибо заранее.
Приветствия,
Бритта
Просьба привести пример для «необработанных символов Unicode», о которых вы говорите. Я уверен, что никто в мире не использовал или не слышал этот термин раньше. –
Что значит «узнавать»? Python вполне способен обрабатывать строки unicode, но вы не объясняете, что вы хотите с ними делать, и что не работает в данный момент. –
Проблема в том, что латекс не любит символы Юникода? Если это так, [этот вопрос] (http://stackoverflow.com/questions/219853/entering-unicode-characters-in-latex) может помочь. –