Мне нужно удалить стоп-слова из текстового файла, содержащего 50 тыс. Твитов. когда я запускаю этот код, он успешно удаляет стоп-слова, но в то же время удаляет пустое пространство. Я хочу пустое пространство в тексте.HOw для удаления стоп-слов из текстового файла без удаления пробела
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import codecs
import nltk
stopset = set(stopwords.words('english'))
writeFile = codecs.open("outputfile", "w", encoding='utf-8')
with codecs.open("inputfile", "r", encoding='utf-8') as f:
line = f.read()
tokens = nltk.word_tokenize(line)
tokens = [w for w in tokens if not w in stopset]
for token in tokens:
writeFile.write(token)
Тогда вы будете в конечном итоге с одна действительно длинная линия, но больше силы для вас. – tripleee
Проложить пробелы между словами. – tripleee
Невозможно, потому что этот файл имеет более 50 000 строк. – ALphaCS