2016-11-10 10 views
-1

У меня есть куча файлов и категорий, перечисленных в cats.txt в той же папке. Я хочу создать для этого категориальный указатель для записи. enter image description hereКак создать категорированный тег corpus reader

Так выглядят мои файлы.

Пробовал много способов в nltk и не смог создать Categorizedtaggedcorpusreader, внутри моего cats.txt У меня есть имя файла и название категории с пространством отдельно, каждое имя файла может иметь несколько категорий.

Например:
mail_1_adapter адаптер
mail_1_alert оповещения
messagebody_24862499 другие
и т.д ...

Можете ли вы показать мне лучший способ, где я могу создать свой корпус и сделать нас Это.

ответ

2

Ваш формат файла в порядке. Как именно вы пытались создать своего читателя, и это не сработало? Вы не показываете свой код, поэтому не говорите, что вы делаете неправильно. Вам нужно сообщить читателю, что он должен читать категории из файла cats.txt, например. как это:

from nltk.corpus.reader import CategorizedTaggedCorpusReader 
reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt") 

Добавленные файл cats.txt не является частью корпуса, так что я использовал регулярное выражение ^[^.]*$, который соответствует всем, не содержащей точку. Если это не правильно описывает ваши файлы, измените определение по мере необходимости, чтобы включить все файлы corpus, но исключайте cats.txt.

+0

corpus_root = 'C:/Users/nkumarn/PycharmProjects/taggedcorpus /' ___________________________________ читатель = CategorizedTaggedCorpusReader (corpus_root, г, cat_file = г '* \ File..' '* \ TXT..) это это то, что я сделал. Это не сработало –

+1

Ну, неудивительно, что это не сработало. 'cat_file' должен быть именем файла (с контуром), а не регулярным выражением. И действительно ли вы написали 'r '. * \. File'' как шаблон файла? В следующий раз включите свой код и ошибку, которую вы получили в своем вопросе. Прекратите писать такие ленивые вопросы, это не первый вопрос, который я посоветовал вам улучшить. – alexis

+0

Ya Я получил это Спасибо .... Я определенно улучшу свои стандарты допроса. Спасибо за совет. –