Есть хороший introduction on how to use sklearn for text analytics.Как использовать формат пользовательских текстовых данных для CountVectorizer()?
Но в верхнем учебнике они используют набор данных sklearn с их объектом «связки», который не указан подробно, поэтому я изо всех сил стараюсь поместить мои данные в желаемую форму, чтобы использовать методы sklearn на ней. Я хотел бы использовать CountVectorizer() на моих текстовых данных для дальнейшей обработки, но вызов CountVectorizer.fit_transform (my_string_array) всегда выдает ошибку:
AttributeError: 'list' object has no attribute 'lower'
Я пытался до сих пор инициализирует следующие типы Numpy массива и загрузил свою строку в них, но ни один из них не работал:
- np.chararray (форма)
- np.empty (форма, DTYPE = ул/объект)
проблема в том, что мои данные представляют собой массив массивов строк, т.е. [['string1', 'string2', ....], ['string1', 'string2', ....], ....] – ben0it8
@ ben0it8, Хорошо, почему ваши данные 2D вместо 1D (сборник документов)? Вы уже подписали документы? – elyase
Да, каждый элемент в моем массиве соответствует строкам одного документа. – ben0it8