2010-07-25 10 views
9

Я ищу бесплатное тегированное тело для системы для обучения для Именованного распознавания сущностей. Большинство из тех, что я нахожу (например, New York Times), дороги и не открыты. Может ли кто-нибудь помочь?Free Tagged Corpus для распознавания именных имен

+0

Тот же вопрос был задан на http://opendata.stackexchange.com/q/7250/1652 (где он не закрыт) –

ответ

1

dbPedia является открытым и свободным

DBpedia построен из википедии, и это очень большой корпус. Постройте индекс Lucene по троек с участием rdfs:label на всех dbPedia titles dump.

+2

Как сказано в одном из других ответов, DBpedia не является помеченным корпусом. –

+0

В 2012 году (и сегодня) мой комментарий был правдой, но это может измениться в будущем. Если вы заинтересованы в корпусах, основанных на DBpedia, вы можете захотеть следовать Open Extraction Challenge (http://wiki.dbpedia.org/textext), чтобы генерировать вывод NIF для DBpedia из текста Wikipedia. –

2

Python NLTK имеет доступ к корпусу nltk.corpus.conll2000. Вызов conll2000.iob_words() возвращает список тройников (слово, часть речи, IOB), где IOB - это тег в формате Inside-entity/Outside-entity/Beginning-of-entity.

В контексте контекста в новостном письме содержится около 250 тыс. Слов.

+0

Можем ли мы также сбрасывать набор данных для его использования на каком-либо другом инструменте? таких как [** Tagger **] (https://github.com/glample/tagger) от GLample. – user1412066

+0

CONLL2000 не маркирует названные объекты. – alexis

6

Там список из корпусов на http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

CoNLL 2003 корпус, который находится в этом списке, является бесплатным и доступен из http://www.cnts.ua.ac.be/conll2003/ner/ (аннотации) и NIST (текст).

+1

Должны ли мы следовать процедуре заполнения форм, отправляя заявку в NIST для получения набора данных, как указано в этой [** ссылке **] (http://trec.nist.gov/data/reuters/reuters.html) ? или какая-то альтернатива? – user1412066