2

Я заинтересован в поиске набор данных, как «Английский Актуальность постановлениях список файлов»: http://trec.nist.gov/data/qrels_eng(запрос, документ, актуальность) бесплатно набор данных для построения информационно-поисковой системы

Этот набор данных содержит меченый, пары запросов и документов. Однако, это зависит от несвободного корпуса, под названием «Данные - English Документов»: http://trec.nist.gov/data/docs_eng.html

Вы знаете, любой свободный набор данных (ы) подобные этому?

Боковое примечание. Набор данных будет использоваться в исследовательском проекте для создания информационно-поисковой системы на основе нейронных сетей.

ответ

6

Вы путаете несколько коллекций TREC в своем вопросе. ClueWeb09 и наборы документов, на которые указывает trec.nist.gov/data/docs_eng.html, являются отдельными документами. То есть каждый набор документов имеет свои собственные темы (запросы) и оценки релевантности, которые не являются частью распределения набора документов.

Существует множество различных тестовых коллекций TREC для поиска текста. Доступные коллекции перечислены на странице данных TREC (trec.nist.gov/data.html), организованной треком TREC, в котором они были созданы. Они организованы таким образом, потому что коллекции, как правило, предназначены для поддержки проблемы поиска что этот трек был разработан для поддержки.

В целом, запросы и оценки релевантности могут быть загружены непосредственно с сайта TREC. Обычно необходимо приобрести набор документов: наборы документов либо защищены авторским правом от исходного источника и должны быть лицензированы, либо существуют другие значительные расходы, связанные с сбором/распространением набора документов. Некоторые из старых наборов документов TREC вы можете получить бесплатно, если вы участвуете в TREC (хотя это уже не вариант для этого года). Несколько наборов документов бесплатны, хотя большинство из них по-прежнему требуют подписания соглашения об использовании данных. На дорожке Genomics была специальная поисковая задача, и ее набор документов свободно подпадает под действие соглашения об использовании данных. См. http://trec.nist.gov/data/genomics.html.

Университет Глазго ведет страницу, которая указывает на другие доступные коллекции тестов, некоторые из которых бесплатны, по адресу http://ir.dcs.gla.ac.uk/resources/test_collections/. Большинство из них - коллекции до TREC (до 1992 года), которые по сегодняшним меркам очень малы. («Крошка», как у вас, вероятно, найти бумаги рецензентов весьма скептически результатов продемонстрированных только на небольших коллекций.)

Эллен Воорис, TREC менеджер проекта, NIST

+0

Большое спасибо, что это именно то, что я хотел , Я уже изменил неправильное имя коллекции. Для меня я просто искал исходный корпус, который был приведен в разных документах, чтобы проверить мой подход к другим подходам. Впоследствии я буду использовать большие коллекции. Еще раз спасибо :). – AHS