Я стартер в Python и Scikit-learn library. Мне сейчас нужно работать над проектом NLP, который в первую очередь должен представлять большой корпус One-Hot Encoding. Я прочитал документацию Scikit-learn о препроцессинге. Один из них, но похоже, что это не понимание моего термина.One Hot Encoding для представления предложений corpus в python
в основном, идея аналогична, как показано ниже:
- 1000000 воскресенье; 0100000 Понедельник; 0010000 Вторник; ... 0000001 Суббота;
Если у тела только 7 разных слов, тогда мне нужен только 7-значный вектор для представления каждого слова. а затем завершенное предложение может быть представлено конъюнкцией всех векторов, которая является матрицей предложения. Тем не менее, я пытался в Python, кажется, не работает ...
Как я могу это решить? у моего корпуса очень много разных слов.
Btw, также, похоже, если векторы в основном выполнены с нулями, мы можем использовать Scipy.Sparse, чтобы сделать хранилище небольшим, например, CSR.
Таким образом, весь мой вопрос будет:
как предложения в корпусе может быть представлены OneHotEncoder, и хранятся в разреженной матрице?
Спасибо, ребята.
THX! очень полезно! – Aaron7Sun
Как вы справляетесь с ситуацией, когда docs = ["A B", "B B C"], например, работая с разными твитами, они не всегда имеют одинаковую длину и содержат разные слова. – bmc