2017-02-14 14 views
0

У меня есть приведенный ниже фреймворк. Я хочу создать механизм правил для извлечения токенов, где шаблон похож на Eg. «СОЕДИНЕННЫЕ ШТАТЫ». Каков наилучший способ сделать это? Есть ли что-то вроде регулярного выражения или CGUL для таких задач? Мы ценим любые предложения.Извлечение информации из pandas dataframe

WORD_INDEX WORD_TOKEN WORD_POS 
0   TRUMP  PROPN 
1   IS   ADP 
2   THE   ADP 
3   PRESIDENT NOUN 
4   OF   ADP 
5   THE   ADP 
6   UNITED  NOUN 
7   STATES  NOUN 

Я хочу начать с WORD_POS и найти WORD_TOKEN. Любая идея, как это сделать? Например, я хочу найти WORD_TOKENs, где WORD_POS - NOUN, а затем следующий WORD_POS также NOUN.

+0

Можете ли вы разделить токены на «UNITED» и «STATES», а затем проверить первый токен, а затем следующий токен? – titipata

ответ

0

Возможно, вы захотите использовать метод строки contains, который по умолчанию принимает аргумент regex. Например

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)') 
print(df[mask]) 

Это будет соответствовать всем, что содержит «объединенные» или «состояния».

+0

Я хочу сделать это наоборот, я хочу начать с WORD_POS и найти WORD_TOKEN. Любая идея, как это сделать? Например, я хочу найти WORD_TOKENs, где WORD_POS - NOUN, а затем следующий WORD_POS также NOUN. –