Я пытаюсь получить список после сегментации слова в его составляющие, такие как суффиксы и префиксы (например, морфемы или аффиксы).регулярное выражение для сегментации - разбиение слов на морфемы или аффиксы
Я попытался использовать регулярные выражения, используя функцию re.findall
.
(показано ниже)
>>> import re
>>> affixes = ['meth','eth','ketone', 'di', 'chloro', 'yl', 'ol']
>>> word = 'dimethylamin0ethanol'
>>> re.findall('|'.join(affixes), word)
['di', 'meth', 'yl', 'eth', 'ol']
Однако мне нужны разделы, в которых она не соответствует должны быть включены. Например, в приведенном выше примере было бы желательно вывести:
['di', 'meth', 'yl', 'amin0', 'eth', 'an', 'ol']
Кто-нибудь знает, как извлечь эти сегменты в списке?