У меня есть файл csv с 3483 строками и 460K символами и 65K словами, и я пытаюсь использовать этот корпус для обучения классификатору NaiveBayes в Scikit-learn.С открытым() оператором с наивным байесовским классификатором занимает до
Проблема в том, что я использую это утверждение ниже, занимает слишком много времени (1 час и не заканчивается).
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier
import csv
with open('train.csv', 'r') as fp:
cl = NaiveBayesClassifier(fp, format="csv")
Любые догадки о том, что я делаю неправильно?
Заранее спасибо.
отформатирован ли ваш файл CSV, как так: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout
Да @vendaTrout Это пример файла: '' 'instagrama, Instagram # фб, FACEBOOK facebookio, FACEBOOK facebooktime мессенджер iphone, FACEBOOK WhatsApp ком, WHATSSUP facebooko # фб, FACEBOOK facebookiokio # Ф.Б., FACEBOOK instagramas:, Instagram facebook https: Ф.Б., FACEBOOK Facebook # Ф.Б., FACEBOOK '' ' – Flavio
Предполагая, что каждый данные и метка поезда разделены с помощью «\ n», вы можете профилировать функцию для меньшего csv или этого. Посмотрите на модуль stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout