С открытым() оператором с наивным байесовским классификатором занимает до

У меня есть файл csv с 3483 строками и 460K символами и 65K словами, и я пытаюсь использовать этот корпус для обучения классификатору NaiveBayes в Scikit-learn.С открытым() оператором с наивным байесовским классификатором занимает до

Проблема в том, что я использую это утверждение ниже, занимает слишком много времени (1 час и не заканчивается).

from textblob import TextBlob 
from textblob.classifiers import NaiveBayesClassifier 
import csv 

with open('train.csv', 'r') as fp: 
    cl = NaiveBayesClassifier(fp, format="csv")

Любые догадки о том, что я делаю неправильно?

Заранее спасибо.

источник

2017-02-12 Flavio

отформатирован ли ваш файл CSV, как так: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout

Да @vendaTrout Это пример файла: '' 'instagrama, Instagram # фб, FACEBOOK facebookio, FACEBOOK facebooktime мессенджер iphone, FACEBOOK WhatsApp ком, WHATSSUP facebooko # фб, FACEBOOK facebookiokio # Ф.Б., FACEBOOK instagramas:, Instagram facebook https: Ф.Б., FACEBOOK Facebook # Ф.Б., FACEBOOK '' ' – Flavio

Предполагая, что каждый данные и метка поезда разделены с помощью «\ n», вы можете профилировать функцию для меньшего csv или этого. Посмотрите на модуль stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout

Существует проблема с этой библиотекой.

Это описано в следующих ссылок:

https://github.com/sloria/TextBlob/pull/136

https://github.com/sloria/TextBlob/issues/77

Небольшая история: библиотека не сделки хорошо с большими наборами данных.

источник

2017-02-15 11:50:13 Flavio

С открытым() оператором с наивным байесовским классификатором занимает до

ответ

Смежные вопросы