Например, у меня есть приведенный ниже список строк в качестве входного корпуса (на самом деле его большой список со 100 значениями). action = ['jump', 'fly', 'run', 'swim']Как извлечь все совпадения строк из столбца с помощью ввода corpus/list в pandas?
Данные содержат столбец, называемый action_description. Как я могу извлечь все совпадения строк в action_description, используя список действий в качестве входного корпуса?
Примечание: Я уже сделал lemmitization description_action, поэтому, если в столбце есть слова, такие как прыжки или прыжки, они уже конвертированы для перехода.
вход Sample & выход
"I love to run and while my friend prefer to swim" --> "run swim"
"Allan excels at high jump but he is not a good at running" --> "jump run"
Примечание: я нашел ниже функции панд, но его не очень хорошо задокументирована так не мог понять, как использовать его.
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.extractall.html
Пожалуйста рекомендовать оптимальное решение, так как на входе dataframe имеют 200K строк.
РЕДАКТИРОВАТЬ Слово как перемычки & ВПП следует игнорировать алгоритм т.е. не должно быть классифицировано как прыгать & перспективы.
Почему позы = «V» т.е. глагол используется? Будет ли результат улучшаться, если 1-я позиция пометки в предложении будет идентифицирована, а затем pos-тег передается функции lemmatize()? –
Лемматизатор генерирует реальные слова, но без контекстной информации он не может различать существительные и глаголы. Контекст предоставляется тегом POS (*, поскольку все слова были в их глагольной форме, используется pos = 'v' *). Да, результаты, безусловно, улучшатся, если в вашем списке поиска есть слова, отличные от глаголов, если вы можете автоматически генерировать теги POS и lemmatize w.r.t в тех частях речи. –
Спасибо! Как я могу изменить свой код для преобразования слов типа «утечка» в «утечку» и т. Д., Используя леммитизацию? –