Есть ли шанс исключить из рассмотрения некоторые из unicode (не буквенно-цифровых)? Я токенизирую арабские слова, которые иногда содержат диакритические знаки, которые считаются не буквенно-цифровыми символами, но я не хочу их удалять, и мне нужно иметь пробел между не-буквенно-цифровым символом (кроме диакритики) и буквенно-цифровым. и это с помощью регулярного выражения? unicode, который я хочу исключить, которые представляют собой диакритики, следующие: u '\ u064b', u '\ u064c', u '\ u064d', u '\ u064e', u '\ u064f', u '\ u0650', u '\ u064d' u '\ u0651', u '\ u0652'Вставить пробел между буквенно-цифровым и буквенно-цифровым символом, кроме определенного символа (Python)
это возможно?
большого спасибо заранее
Не могли бы вы изменить свой вопрос, чтобы включить пример? –