Я пытался использовать анализ чувствительности в python 3 и использовал векторный указатель TDF-IDF с моделью мешков слов для векторизации документа.Представление векторизации документа в Python
Итак, всем, кто знаком с этим, совершенно очевидно, что результирующее представление матрицы является редким.
Вот фрагмент моего кода. Во-первых, документы.
tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the driest damn wings ever!',0),('An extensive menu provides lots of options for breakfast.',1),('The flair bartenders are absolutely amazing!',1),('My first visit to Hiro was a delight!',1),('Poor service, the waiter made me feel like I was stupid every time he came to the table.',0),('Loved this place.',1),('This restaurant has great food',1),
('Honeslty it did not taste THAT fresh :(',0),('Would not go back.',0),
('I was shocked because no signs indicate cash only.',0),
('Waitress was a little slow in service.',0),
('did not like at all',0),('The food, amazing.',1),
('The burger is good beef, cooked just right.',1),
('They have horrible attitudes towards customers, and talk down to each one when customers do not enjoy their food.',0),
('The cocktails are all handmade and delicious.',1),('This restaurant has terrible food',0),
('Both of the egg rolls were fantastic.',1),('The WORST EXPERIENCE EVER.',0),
('My friend loved the salmon tartar.',1),('Which are small and not worth the price.',0),
('This is the place where I first had pho and it was amazing!!',1),
('Horrible - do not waste your time and money.',0),('Seriously flavorful delights, folks.',1),
('I loved the bacon wrapped dates.',1),('I dressed up to be treated so rudely!',0),
('We literally sat there for 20 minutes with no one asking to take our order.',0),
('you can watch them preparing the delicious food! :)',1),('In the summer, you can dine in a charming outdoor patio - so very delightful.',1)]
X_train, y_train = zip(*tweets)
И следующий код для векторизации документов.
tfidfvec = TfidfVectorizer(lowercase=True)
vectorized = tfidfvec.fit_transform(X_train)
print(vectorized)
При печати vectorized
, он не выводит нормальную матрицу. Вместо этого:
Если я не ошибаюсь, это должно быть разреженное представление матрицы. Однако я не могу понять его формат и то, что означает каждый термин.
Также имеется 30 документов. Итак, это объясняет 0-29 в первом столбце. Если это тренда, то я предполагаю, что второй столбец является индексом слов, а последнее значение - это tf-idf? Меня просто поразило, когда я печатал свой вопрос, но любезно поправьте меня, если я ошибаюсь.
Может ли кто-нибудь с опытом в этом помочь мне лучше понять это?