Какая разница между корпусом и лексиконом в NLTK (питон)

Может кто-нибудь сказать мне разницу между Corpora, корпусом и лексиконом в NLTK?Какая разница между корпусом и лексиконом в NLTK (питон)

Что такое набор данных фильма?

Что такое Wordnet?

источник

2015-07-20 Kumar

Предпочтительно, если вы можете размещать отдельные вопросы вместо объединения вопросов в один. Таким образом, это помогает людям отвечать на ваш вопрос, а также другим, охотящимся хотя бы на один из ваших вопросов. Благодаря! –

hey Rohit, thx для комментария ... Я добавил это, хотя, поскольку все они связаны друг с другом ... ответ на один в контексте других поможет мне поверить ... – Kumar

Это не «машинное обучение» как таковое, но это больше NLTK и nlp. – alvas

Corpora является множественное число для корпуса.

Корпус в основном означает тело, а в контексте обработки естественного языка (НЛП) это означает текст текста.

(источник: https://www.google.com.sg/search?q=corpora)

Lexicon является словарь, список слов, словарь (источник: https://www.google.com.sg/search?q=lexicon)

В NLTK, любой лексикон считается корпус, так как список слов также текст текста. Например. список игнорируемых слов можно найти в NLTK мозолистого API:

>>> from nltk.corpus import stopwords 
>>> print stopwords.words('english') 
[u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', u'you', u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', u'her', u'hers', u'herself', u'it', u'its', u'itself', u'they', u'them', u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until', u'while', u'of', u'at', u'by', u'for', u'with', u'about', u'against', u'between', u'into', u'through', u'during', u'before', u'after', u'above', u'below', u'to', u'from', u'up', u'down', u'in', u'out', u'on', u'off', u'over', u'under', u'again', u'further', u'then', u'once', u'here', u'there', u'when', u'where', u'why', u'how', u'all', u'any', u'both', u'each', u'few', u'more', u'most', u'other', u'some', u'such', u'no', u'nor', u'not', u'only', u'own', u'same', u'so', u'than', u'too', u'very', u's', u't', u'can', u'will', u'just', u'don', u'should', u'now']

фильм обзор набора данных в NLTK (канонически известный как Movie Reviews Corpus) представляет собой текст набор данных 2k обзоры фильмов с Настроения полярности классификации (источник: http://www.nltk.org/book/ch02.html)

и часто используются для целей учебника для введения в НЛП и анализ настроений, см http://www.nltk.org/book/ch06.html и nltk NaiveBayesClassifier training for sentiment analysis

WordNet является лексической базой для английского языка (это как лексикон/словарь с словом-к-слову отношением) (источник: https://wordnet.princeton.edu/).

В NLTK он включает в себя Open Multilingual WordNet (http://compling.hss.ntu.edu.sg/omw/), который позволяет запрашивать слова на других языках.

Так как это также список слов (в данном случае с многими другими вещами, включая отношения, леммы, POS и т. Д.), Он также вызывается с использованием nltk.corpus в NLTK.

Каноническая идиома использовать WordNet в NLTK как таковой:

>>> from nltk.corpus import wordnet as wn 
>>> wn.synsets('dog') 
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]

Самый простой способ понять/узнать NLP жаргоны и основы, чтобы пройти через эти урока в книге NLTK : http://www.nltk.org/book/

источник

2015-07-20 21:34:45 alvas

Какая разница между корпусом и лексиконом в NLTK (питон)

ответ

Смежные вопросы