2016-12-08 10 views
0

Могу ли я узнать, как оценить семантический поиск (онтологический поиск) и сделать ранжирование для извлеченного документа?оценка онтологического семантического поискового запроса документ ранг точность отзыв IR

поскольку семантический поиск может получить аналогичное значение документа, даже если документ не содержит ключевое слово запроса. это означает, что я не могу использовать TFIDF для сравнения запроса и документов и выполнения ранжирования. поскольку точность и отзыв не будут точными.

Как оценить семантический поиск на основе онтологий и сделать рейтинг документа?

ответ

0

Вы должны использовать наборы данных, которые используются в качестве золотых стандартов.

Релевантность оценивается относительно запроса, а не запроса. Например, потребность в информации может быть:

Информация о том, является ли пить красное вино более эффективным для снижения риска сердечных приступов, чем белого вина. Это может быть переведено на запрос, например: Вино, красное и белое сердце, а также атаковать и эффективно Документ имеет значение, если он обращается к указанной информации, а не потому, что просто содержит все слова в запросе.

Вот список самых стандартных коллекций тестов и оценочных серий.

Коллекция Cranfield. Это была новаторская тестовая коллекция, позволяющая точно определять количественные показатели эффективности поиска информации, но в настоящее время слишком мала для чего угодно, кроме самых элементарных экспериментальных экспериментов. Сборник в Соединенном Королевстве, начиная с конца 1950-х годов, содержит 1398 тезисов статей журнала аэродинамики, набор из 225 запросов и исчерпывающие оценки соответствия всех (запросов, документов). Текстовая поисковая конференция (TREC). Национальный институт стандартов и технологий США (NIST) с 1992 года провел большую группу исследований на основе IR-тестов. В рамках этой структуры было много треков в различных коллекциях тестов, но наиболее известными наборами тестов являются те, которые использовались для трека TREC Ad Hoc во время первых 8 оценок TREC в период с 1992 по 1999 год. В общей сложности эти тестовые коллекции содержат 6 компакт-дисков, содержащих 1,89 млн. документов (главным образом, но не исключительно, статьи с новостями) и оценки релевантности для 450 информационных потребностей, которые называемых темами и указанных в подробных текстах. Индивидуальные коллекции тестов определяются по различным подмножествам этих данных. Первоначальные TREC состояли из 50 информационных потребностей, оцениваемых по разным, но перекрывающимся наборам документов. TREC 6-8 обеспечивают 150 информационных потребностей более чем в 528 000 новостных лент и статей по информационной службе в сфере внешней радиосвязи. Это, вероятно, лучший субколлекция для использования в будущей работе, потому что она самая большая, а темы более согласованы. Поскольку коллекции тестовых документов настолько велики, нет исчерпывающих суждений о релевантности. Скорее, оценки релевантности оценщиков NIST доступны только для документов, которые были в числе вершин $ k $, возвращенных для некоторой системы, которая была введена в оценку TREC, для которой была разработана информационная потребность. В последние годы NIST провела оценку более крупных коллекций документов, включая 25-миллионную страницу веб-страниц GOV2. С самого начала коллекции тестовых документов NIST на порядок превосходили все, что было доступно исследователям ранее, и GOV2 теперь является самой большой веб-коллекцией, легко доступной для исследовательских целей. Тем не менее размер GOV2 по-прежнему на 2 порядка меньше текущего размера коллекций документов, индексированных крупными компаниями веб-поиска.

Коллекции NII Test для ИК-систем (NTCIR).В проекте NTCIR были собраны различные коллекции тестов с аналогичными размерами для коллекций TREC, в которых основное внимание уделяется восточноазиатскому языку и перекрестному поиску информации, где запросы создаются на одном языке над коллекцией документов, содержащей документы на одном или нескольких других языках. См .: http://research.nii.ac.jp/ntcir/data/data-en.html Форум по оценке перекрестного языка (CLEF). Эта серия исследований была сосредоточена на европейских языках и поиске информации на разных языках. См.: http://www.clef-campaign.org/ и Reuters-RCV1. Для классификации текста наиболее часто используемой тестовой коллекцией была коллекция Reuters-21578 из 21578 статей с новостями; см. главу 13, стр. 13.6. Совсем недавно Reuters выпустила гораздо более крупный Reuters Corpus Volume 1 (RCV1), состоящий из 806 791 документов; см. главу 4, стр. 4.2. Его масштаб и богатая аннотация делает его лучшей основой для будущих исследований. 20 групп новостей. Это еще одна широко используемая сборка классификации текста, собранная Кеном Лангом. Он состоит из 1000 статей из каждой из 20 групп новостей Usenet (название группы новостей рассматривается как категория). После удаления дубликатов статей, как обычно используется, он содержит 18941 статей.

+0

Спасибо за информацию. Набор данных я уже нашел. проблема в том, что такое методология для оценки семантического поиска на основе онтологий. традиционная методология оценки не подходит для проведения оценки. – dd90p

+0

Если ваш набор данных не имеет каких-либо качественных параметров, вам следует использовать краудсорсинг, и это именно то, что дали вам данные, сделанные вами. Они показали полученные документы реальным пользователям и получили отзывы. – Alikbar