Я удалил весь код и добавил все файлы в один большой текстовый файл (3,89 ГБ) .. Но я все еще не могу удалить все повторяющиеся слова, потому что я не могу загрузить весь файл в ['list'] Я хочу удалить все повторяющиеся слова в файле dict.txt. Мой код на данный момент загружает 10 000000 слов ан список и удалить дубликаты в списке ....Удалить дубликаты из нескольких текстовых списков слов python
count = 0
strings = []
dict_o = open ('./dict/dict.txt','r')
for line in dict_o:
strings.append(line)
count+=1
if count > 10000000:
strings_s =set(strings)
strings_so = sorted(strings_s)
out = open('./dict/dict1.txt','a').writelines(strings_so)
count = 0
strings= []
Короче говоря, репрезентативный пример поможет многое – inspectorG4dget
Какова цель наличия нескольких файлы? По-видимому, имеет смысл вкладывать слова в простую базу данных (например, SQLite). – bernie
Хе-хе .. если я не понимаю вас, ваша идея состоит в том, чтобы иметь только один большой текстовый файл .... Тест открыть и прочитать текстовый файл размером до 4 ГБ даст MemoryError ... – nkf4