2016-08-11 18 views
0

Я использую pickle для сохранения классифицированной модели с теоремой байесов, я сохранил файл с 2,1 ГБ после классификации с 5600 записями. но когда я загружаю этот файл, он занимает почти 2 минуты, но для классификации текста он принимает 5,5 минут. Я использую следующий код для его загрузки и классификации.Как уменьшить время классификации темы в textblob naive bayes classifier

classifierPickle = pickle.load(open("classifier.pickle", "rb")) 
    classifierPickle.classify("want to go some beatifull work place")) 

Первая линия для загрузки маринованного объекта, а вторая для классификации текста - это результат, который относится к категории (категории). Я использую следующий код для сохранения модели.

file = open('C:/burberry_model/classifier.pickle','wb') 
pickle.dump(object,file,-1) 

Каждая вещь я использую из textblob.Environment является ОС Windows, 28GB RAM, четыре ядра процессора. Это очень поможет, если кто-нибудь сможет решить эту проблему.

ответ

0

Поскольку textblob построен поверх NLTK, это чистая реализация Python, которая уменьшает ее скорость на огромную величину. Во-вторых, поскольку ваш файл Pickle составляет 2,1 ГБ, он значительно расширяется и сохраняется непосредственно в ОЗУ, увеличивая время еще больше.

Кроме того, поскольку вы используете Windows, скорость Python относительно медленная. Если для вас важна скорость, тогда было бы полезно использовать селектор свойств и конструктор векторов из textblob/NLTK и использовать scicit-learn NB Classifier, который имеет C-Bindings, поэтому я предполагаю, что это будет значительно быстрее.

 Смежные вопросы

  • Нет связанных вопросов^_^