Вы путаете несколько коллекций TREC в своем вопросе. ClueWeb09 и наборы документов, на которые указывает trec.nist.gov/data/docs_eng.html, являются отдельными документами. То есть каждый набор документов имеет свои собственные темы (запросы) и оценки релевантности, которые не являются частью распределения набора документов.
Существует множество различных тестовых коллекций TREC для поиска текста. Доступные коллекции перечислены на странице данных TREC (trec.nist.gov/data.html), организованной треком TREC, в котором они были созданы. Они организованы таким образом, потому что коллекции, как правило, предназначены для поддержки проблемы поиска что этот трек был разработан для поддержки.
В целом, запросы и оценки релевантности могут быть загружены непосредственно с сайта TREC. Обычно необходимо приобрести набор документов: наборы документов либо защищены авторским правом от исходного источника и должны быть лицензированы, либо существуют другие значительные расходы, связанные с сбором/распространением набора документов. Некоторые из старых наборов документов TREC вы можете получить бесплатно, если вы участвуете в TREC (хотя это уже не вариант для этого года). Несколько наборов документов бесплатны, хотя большинство из них по-прежнему требуют подписания соглашения об использовании данных. На дорожке Genomics была специальная поисковая задача, и ее набор документов свободно подпадает под действие соглашения об использовании данных. См. http://trec.nist.gov/data/genomics.html.
Университет Глазго ведет страницу, которая указывает на другие доступные коллекции тестов, некоторые из которых бесплатны, по адресу http://ir.dcs.gla.ac.uk/resources/test_collections/. Большинство из них - коллекции до TREC (до 1992 года), которые по сегодняшним меркам очень малы. («Крошка», как у вас, вероятно, найти бумаги рецензентов весьма скептически результатов продемонстрированных только на небольших коллекций.)
Эллен Воорис, TREC менеджер проекта, NIST
Большое спасибо, что это именно то, что я хотел , Я уже изменил неправильное имя коллекции. Для меня я просто искал исходный корпус, который был приведен в разных документах, чтобы проверить мой подход к другим подходам. Впоследствии я буду использовать большие коллекции. Еще раз спасибо :). – AHS