Я пытаюсь выполнить некоторую обработку текста с использованием NLTK и Pandas.Хранение списка в столбце DataFrame pandas
У меня есть DataFrame с текстом столбца. Я хочу добавить столбец «text_tokenized», который будет сохранен как вложенный список.
Мой код для tokenizing текста:
def sent_word_tokenize(text):
text = unicode(text, errors='replace')
sents = sent_tokenize(text)
tokens = map(word_tokenize, sents)
return tokens
В настоящее время я пытаюсь применить эту функцию следующим образом:
df['text_tokenized'] = df.apply(lambda row: sent_word_tokenize(row.text), axis=1)
Что дает мне ошибку:
ValueError: Shape of passed values is (100, 3), indices imply (100, 21)
Не конечно, как это исправить и что здесь не так.
Трудно сказать наверняка, но выглядит как ось = 1 - операция _row_, когда у вас есть _column_ текста? – benten
http://stackoverflow.com/a/19667189/1168680 – RAVI
return (tokens) – RAVI