Я пытаюсь написать программу, которая использует части речи на естественном языке в Java. Я искал в Google и не нашел весь Brown Corpus (или другой корпус помеченных слов). Я продолжаю находить информацию NLTK, которой меня не интересует. Я хочу, чтобы иметь возможность загружать данные в программу Java и суммировать вхождения слов (и какова вероятность того, что они должны быть частью речи).Как получить доступ к Brown Corpus в Java (aka за пределами NLTK)
ответ
Вот ссылка на страницу загрузки для Brown Корпус: http://www.nltk.org/nltk_data/
Все файлы файлы почтового индекса. Формат данных описан на Brown Corpus Wikipedia. Я не знаю, что еще сказать. Оттуда должно быть очевидно.
EDIT: если вы хотите исходные исходные данные, я думаю, что есть некоторые corpus, которые имеют свои данные. Однако обычно необходимо, чтобы кто-то другой делал выборку. Также обратите внимание на это из записи в Википедии: «Каждый образец начинался с произвольной границы предложения в выбранной статье или другом блоке и продолжался до границы первого предложения после 2000 слов». Таким образом, данные для Brown Corpus по существу рандомизированы. Даже если у вас были оригинальные тексты, вы не сможете угадать, где они были взяты.
Спасибо! Наверное, я надеялся/ожидал, что смогу загрузить данные обучения из .edu или что-то еще. –
Данные являются данными. Данные NLTK не находятся в неясном, зашифрованном или сложном формате. Просто напишите Java-код, чтобы прочитать его. Вы можете найти ярлык в WEKA, иначе вы не сможете.
Да, но нет способа получить его от «оригинальный» источник? –
Это был бы вопрос вне темы, но мне кажется, что NLTK _is_ является официальным распределением, периодом. – bmargulies
Хорошо, спасибо, оценили. –
Если вы не хотите связываться с интерфейсом NLTK: Корпус Брауна был депонирован в Интернет-архиве (archive.org). На странице https://archive.org/details/BrownCorpus вы найдете ссылку на архив zip, содержащий весь корпус. (Также ссылка на торрент, но это не кажется проблемой для 3,2 МБ.)
Спасибо, что разместили ссылку. Я кратко просмотрел данные, и это кажется точным, за исключением того, что он полностью пропускает коды местоположения, которые определяют жанры и номера последовательностей для образцов, строк и слов. – TextGeek
Отсутствует _what_? Жанры категории находятся в файле 'cats.txt'. В остальном я понятия не имею, о чем вы говорите. – alexis
Вы правы, есть файл cats.txt (я пропустил его, потому что алфавитный список зарывает его среди 500 образцов и потому, что он не упоминается в readme). Оригинальный Браун Корпус приложил код места к каждому слову, рассказывая вам, какой жанр, образец, линия и номер слова он есть. Данные на archive.org упаковывают первые два в каждое имя файла и опускают два вторых.Кроме того, он разбивает строки на предложения, которые не там, где оригинал BC. Для многих это не имеет значения; для некоторых вещей (например, понимание конкретных ссылок на места в публикациях), это произойдет. – TextGeek
Почему вас не интересует NLTK? Они имеют наилучшее покрытие API-интерфейсов NLP-наборов данных, упакованных в одну библиотеку. Вам не нужно много кода, чтобы получить то, что вам нужно в python, и в java вы попадаете в загрузку строк, http://pastebin.com/7U9GRpNN. Мое предложение, использование NLTK обрабатывает корпус, выводится в текстовый файл и читает его =) Также см. Https://www.cis.upenn.edu/~treebank/ – alvas