У меня есть приведенный ниже фреймворк. Я хочу создать механизм правил для извлечения токенов, где шаблон похож на Eg. «СОЕДИНЕННЫЕ ШТАТЫ». Каков наилучший способ сделать это? Есть ли что-то вроде регулярного выражения или CGUL для таких задач? Мы ценим любые предложения.Извлечение информации из pandas dataframe
WORD_INDEX WORD_TOKEN WORD_POS
0 TRUMP PROPN
1 IS ADP
2 THE ADP
3 PRESIDENT NOUN
4 OF ADP
5 THE ADP
6 UNITED NOUN
7 STATES NOUN
Я хочу начать с WORD_POS и найти WORD_TOKEN. Любая идея, как это сделать? Например, я хочу найти WORD_TOKENs, где WORD_POS - NOUN, а затем следующий WORD_POS также NOUN.
Можете ли вы разделить токены на «UNITED» и «STATES», а затем проверить первый токен, а затем следующий токен? – titipata