Проблемы:Создать индекс документа слова позиция
Я хочу, чтобы выполнить индексирование пути создания структуры данных в Python, который будет хранить все слова из заданного текстового файла, а также будет хранить свои номера строк (все строки, в которых эти слова появляются), а также положение слова (столбец #) в этой конкретной строке.
До сих пор я мог хранить слова в словаре, добавляя все номера строк в списке, но я не могу сохранить их позиции в этой конкретной строке.
Мне нужна эта структура данных для более быстрого поиска текстовых файлов.
Вот мой код до сих пор:
from collections import defaultdict
thetextfile = open('file.txt','r')
thetextfile = thetextfile.read()
file_s = thetextfile.split("\n")
wordlist = defaultdict(list)
lineNumber = 0
for (i,line) in enumerate(file_s):
lineNumber = i
for word in line.split(" "):
wordlist[word].append(lineNumber)
print(wordlist)
что формат ваш текстовый файл? – Leonid
@Leonid, он может быть любого формата. –
@EdwinvanMierlo, я новичок на python, я не могу продолжать хорошо. –