0
Мне нужно реализовать лемматизацию на большом количестве данных (~ 10 миллионов строк). Библиотека Python nltk очень медленная на больших объемах данных. Есть ли другая альтернатива?Как реализовать лемматизацию на большом количестве данных?
Есть ли эталон для сравнения этой платформы? Также существует ли оболочка python для clearNLP? –
Stanford coreNLP (http://arxiv.org/pdf/1308.0661v1.pdf, http://www.oegai.at/konvens2012/proceedings/60_rodriquez12w/60_rodriquez12w.pdf) является лучшим тегером NER, где, поскольку clearNLP имеет самый быстрый парсер. Оба находятся на Java, а clearNLP также имеет систему clearTK для конечных пользователей, основанную на UIMA (используется IBM watson, тот, который быстро и точно побеждает людей в Jeopardy :)). Поэтому, если вы используете clearNLP/clearTK, вы можете вызывать другие лучшие инструменты в НЛП, такие как stanford coreNLP и т. Д .; не так легко для nltk, учитывая, что это python. –