1

У меня есть вопрос о том, как оценивать информацию, получить результат хороший или нет, такие, как рассчитатьнекоторые идеи и направления, как измерить ранжирования, AP, MAP, напомним, для оценки ИК

соответствующий документ ранга, напомним, точность, AP, MAP .....

В настоящее время система может извлекать документ из базы данных, как только пользователь вводит запрос. Проблема в том, что я не знаю, как сделать оценку.

Я получил некоторые общественные набор данных, таких, как «коллекция Крэнфильдского» dataset link он содержит

1.document 2.query 3.relevance assesments

   DOCS QRYS SIZE* 
Cranfield 1,400 225 1.6 

Могу ли я знать, как использовать сделать оценку используя «сбор Cranfield» для расчета соответствующий рейтинг документа, отзыв, точность, AP, MAP .....

Мне могут потребоваться некоторые идеи и указания. не спрашивая, как закодировать программу.

ответ

3

документ Рейтинг

Okapi BM25 (BM стоит за лучший Matching) является функцией ранжирования используется поисковыми системами для ранжирования, соответствующие документы в соответствии с их значимостью для данного поискового запроса. Он основан на вероятностной структуре поиска. BM25 - это функция извлечения , которая оценивает набор документов на основе условий запроса, появляющихся в каждом документе, независимо от взаимосвязи между условиями запроса в документе (например, их относительной близостью). Дополнительную информацию см. На странице Wikipedia.

Precision и Recall меры

Precision «всех документов, которые мы извлекаемые как имеющие отношение, сколько на самом деле важно?».

Precision = No. of relevant documents retrieved/No. of total documents retrieved 

Вспомогательные меры «Из всех актуальных документов, сколько мы получили в качестве релевантных?».

Recall = No. of relevant documents retrieved/No. of total relevant documents 

Предположим, если запрос «д» подается в информационно-поисковой системы (напр., Поисковая система), имеющий 100 соответствующих документов w.r.t. запрос «q», система извлекает 68 документов из общей коллекции 600 документов. Из 68 извлеченных документов было 40 документов. Таким образом, в данном случае:

Precision = 40/68 = 58.8% и Recall = 40/100 = 40%

F-Score/F-мера представляет собой взвешенное среднее гармоническое точности и отзывом. Традиционная F-мера или сбалансирован F-оценка:

F-Score = 2 * Precision * Recall/Precision + Recall 

Средняя точность

Вы можете думать об этом так: вы печатаете что-то в Google и показывает 10 результатов. Вероятно, это лучше всего, если бы все они были релевантными. Если только некоторые из них релевантны, скажем, пять из них, то это намного лучше, если соответствующие сначала будут показаны. Было бы плохо, если бы первые пять были неактуальны, а хорошие начали только с шестого, не так ли? Оценка AP отражает это.

Дающ пример ниже:

enter image description here

AvgPrec из двух рейтингов:

Рейтинг # 1: (1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6)/6 = 0.78

Рейтинг # 2: (0.5 + 0.4 + 0.5 + 0.57 + 0.56 + 0.6)/6 = 0.52

Средняя средняя точность (MAP)

MAP - среднее значение средней точности по нескольким запросам/рейтингам. Приведем пример для иллюстрации.

enter image description here

Средняя средняя точность для двух запросов:

Для запроса 1 AvgPrec: (1.0+0.67+0.5+0.44+0.5)/5 = 0.62

По запросу 2 AvgPrec: (0.5+0.4+0.43)/3 = 0.44

Таким образом, MAP = (0.62 + 0.44)/2 = 0.53

Иногда люди используют [email protected], [email protected] как показатель эффективности поисковой системы. Вы должны создать поисковую систему для таких проверок. Если вы хотите написать свою программу на Java, вы должны рассмотреть Apache Lucene, чтобы создать свой индекс.

+0

Могу ли я задать вам один вопрос о том, как оценивать баллы BM25. используя метод TF-IDF, мы вычисляем IT-IDF документа и запроса и сравниваем расстояние косинуса для ранжирования документа. Но как сделать рейтинг для BM25 ?? например, я получил баллы BM25 для одного документа (оценки: _____: [0, -0.00993319335279988, 0,1712756703100223, -0,10833186147108911, -0.08897894166003212, 0.13457374095787467, 1.642922484773619, 0.15791141726235663, 1.0831388761516576]) Как использовать оценку BM25 для оценки? ? – dd90p

+0

рейтинг делается обычным способом, что означает, что документы с более высоким счетом будут ранжироваться выше и наоборот. tf-idf полезен для сходства, но BM25 полезен для оценки релевантности документов между запросом и документами. см. страницу Википедии BM25, чтобы узнать больше о функции. BM25 много думает при вычислении сходства. –

+0

ОК, спасибо большое. Я получаю идеи. после процесса ранжирования, как определить, какой документ является релевантным, и который не имеет отношения к запросу. нам нужно сделать предположение, что верхняя первая 3 в списке рангов является релевантной, а остальные неактуальны? Чтобы рассчитать отзыв и точность. Нам нужно знать количество соответствующего документа и не относящегося к делу документа. Итак, как определить? – dd90p

1

расчет точности и отзыва прост; Точность - это доля соответствующих полученных документов для всех документов, которые вы получили. Отзыв - это часть соответствующих документов, полученных во все соответствующие документы.

Например, если запрос имеет 20 соответствующих документов, и получены 25 документов, только 14 из них имеет отношение к запросу, то: Precision = 14/25 и Recall = 14/20.

Но точность и отзыв должны быть объединены таким образом, что путь называется F-Measure и является гармоническим средним точности и отзыва: F-Score = 2 * Precision * Recall/Precision + Recall.

В AP указывается доля соответствующих документов для нерелевантных документов в определенном количестве полученных документов. Предположим, вы получили 25 документов, а в первых 10 документах извлекается 8 соответствующих документов. Таким образом, AP (10) = 8/10;

Если вы вычислили и добавили AP для 1 в N, то разделите его на N, вы только что рассчитали MAP. Где N - общее количество соответствующих документов в наборе данных yoyr.

+0

В моем случае я не знаю, сколько документов относится к запросу. Документы, которые была возвращена программой, набор данных, который я использовал, не помечен тем, что документ относится к какому запросу.Итак, как измерить релевантность между запросом и документом? – dd90p

+0

Конечно, они помечены тегами релевантности запроса-документа. Еще раз посмотрите на свой набор данных и прочитайте файл readme. Это важная его часть: Число строк состоит из трех столбцов: первый номер запроса, второй - соответствующий номер документа , а третий - код релевантности. Коды определены в файле readme. – Alikbar

+0

Как упоминалось выше, у «cranqrel» есть qrels, номер документа, релевантность. Однако не все документы помечены в «cranqrel». например, в наборе данных крана имеется всего 1000 документов и 100 qrel. для qrel id = 74 только документ 576,656,575,317,574,578,541 обозначен релевантностью. В случае, если моя поисковая система извлекает документ 222,333,444, но «cranqrel» не имеет релевантности. Как сделать оценку? – dd90p

 Смежные вопросы

  • Нет связанных вопросов^_^