Я столкнулся с проблемой, я просто подведу итог тому, что я пытаюсь выполнить, чтобы вы получили четкую картину, чтобы вести меня.Как создать корпус, похожий на movie_review с помощью nltk python 3.4
Я хочу, чтобы создать Corpus нечто похожее на movie_reviews где movie_review было только 2 категории, но где, как и в моем случае я буду иметь несколько категорий и подкатегорий.
Например:
что у меня есть корпус как my_corpus, в котором я хотел создать такие категории, как 'A', 'B', 'C', 'D' и 'E'. Каждая из этих категорий будет содержать подкатегории, такие как «A». Я хочу иметь подкатегории типа «a1», «a2», «a3» и т. Д. Для всех остальных категорий (B, C, D и E). Каждая из этих подкатегорий будет снова иметь свои подкатегории, такие как «a1» может иметь «a1.1», «a1.2» и т. Д. И, наконец, нижняя часть (лист) будет содержать все текст файлов, относящихся к этой категории или подкатегории.
Мой вопрос
1> Как я могу создать такой корпус, есть в любом случае, чтобы сделать это, пожалуйста, руководство меня ваш ответ будет большую помощь, вы можете также отобразить мне ссылку, которая может помочь мне сделать это
2> могу ли я работать в naivebayes Algo или любой другие алго который костюмы к этому случаю, как один, чтобы найти неги и позы в movie_reviews, здесь, в моем случае, а я необходимо найти, что новый вопрос касается какой категории и ее подкатегории и так далее?
Пожалуйста, помогите мне.
вы можете изменить код, если вы организуете его таким же образом. как выглядят ваши данные? –
Мои данные - это текстовый файл ... Причина, по которой мне нужны категории и подкатегории, - это то, что я хотел использовать ее как узел, структуру листьев и т. Д. Для некоторой работы. –
. Я не могу полностью понять часть 2) вашего вопрос, но я уверен, что это не связано с задачей определения читателя корпуса - отдельный вопрос, другими словами. – alexis