Я пытаюсь удалить стоп-слова перед тем, как выполнить тематическое моделирование. Я заметил, что некоторые слова отрицания (не, ни, никогда, ни один и т. Д.) Обычно считаются стоп-словами. Например, NLTK, spacy и sklearn включают «не» в своих списках стоп-слов. Однако, если мы удалим «не» из этих предложений ниже, они потеряют значимое значение, и это не будет точным для моделирования темы или анализа настроений.НЛП - почему «не» слово?
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Может кто-нибудь объяснить, почему эти слова отрицания обычно считаются стоп-словами?
Этот вопрос кажется, что он получит более качественные ответы на более специализированном сайте, так как речь идет о теории программного обеспечения, а не о том, как с ней программировать. Может быть, http://datascience.stackexchange.com/? – IMSoP
Я голосую, чтобы закрыть этот вопрос, потому что он был вручную перенесен на другую учетную запись: http://datascience.stackexchange.com/questions/15765/nlp-why-is-not-a-stop-word – IMSoP
Да согласитесь, просто не смог закрыть его сам ... Так ответил мой собственный вопрос и попытался решить его. Но я не могу до завтра –