Я классифицирую небольшие тексты (твиты), используя Naive Bayes (MultinominalNB) в scikit-learn. Данные моего поезда имеют 1000 функций, а мои тестовые данные имеют 1200 функций. Предположим, что для обоих поездов и тестовых данных используются 500 функций.Naive Bayes unseen features обработка scikit learn
Интересно, почему MultinominalNB в scikit узнать не обрабатывает невидимые черты, и дает мне ошибку:
Traceback (most recent call last):
File "/Users/osopova/Documents/00_KSU_Masters/01_2016_Spring/Twitter_project/mda_project_1/step_4.py", line 60, in <module>
predict_Y = classifiers[i].predict(test_X)
File "/Library/Python/2.7/site-packages/sklearn/naive_bayes.py", line 65, in predict
jll = self._joint_log_likelihood(X)
File "/Library/Python/2.7/site-packages/sklearn/naive_bayes.py", line 672, in _joint_log_likelihood
return (safe_sparse_dot(X, self.feature_log_prob_.T)
File "/Library/Python/2.7/site-packages/sklearn/utils/extmath.py", line 184, in safe_sparse_dot
return fast_dot(a, b)
ValueError: matrices are not aligned