2017-02-21 13 views
0

я задал вопрос What is the ...? используя /fcselect обработчик без Ranker ID и получил следующие документы:Правильно ли обучен мой сотрудник?

"docs": [ 
    {"id": "100"}, // ranked first 
    {"id": "101"}, // ranked second 
    ... 
    {"id": "198"}, // ranked second from last (99th) 
    {"id": "199"} // ranked last (100th) 
] 

Затем я создал посещаемости, используя следующую наземную истину:

What is the ...?,199,5,198,4 
... 

Затем я спросил * тот же вопрос * используя /fcselect обработчик с рангом и получил следующие документы:

"docs": [ 
    {"id": "100"}, // ranked first 
    {"id": "101"}, // ranked second 
    ... 
    {"id": "199"}, // ranked 30th 
    ... 
    {"id": "198"} // ranked 35th 
    ... 
] 

, но я ожидаю, как в следующем порядке:

"docs": [ 
    {"id": "199"}, // ranked first 
    {"id": "198"}, // ranked second 
    {"id": "100"}, // ranked third 
    {"id": "101"} // ranked 4th 
    ... 
] 

Является ли Ranker должным образом обучен?

ответ

3

См. Здесь для ответа на аналогичный вопрос: https://developer.ibm.com/answers/questions/317822/4-stars-answers.html.

При использовании подхода, основанного на учебе, нет никаких гарантий, что рантье будет отображать ответы, помеченные как «правильные» в истине земли, в верхней части результата поиска. Это связано с тем, что рейтинг не запоминает правильные ответы, а скорее надеется захватить обобщения в распределении значений признаков, фиксируя перекрытие между запросами и результатами поиска. Для проверки правильности ранжирования поведение ведет себя так, как ожидалось, вы можете измерить точность первого результата по большому набору запросов (в отличие от запросов, используемых во время обучения) и проверить улучшение в среднем.

Сказанное, конечно, странно, что первые два ранжированных результата поиска вообще не меняются в ответ на обучение ранчо. Некоторые вещи, чтобы рассмотреть в экспериментах для повышения производительности:

  • ли количество строк, передаваемых в Ranker достаточно высокой (в вашем примере, параметр должен быть установлен, по меньшей мере, 100, поскольку по умолчанию 10).
  • Число строк, включенных во время обучения ранга (при подготовке основного файла правды), такое же, как количество строк, включенных во время выполнения (они должны соответствовать оптимальной производительности), и это настройка, с которой вы можете играть для настройки производительности) ?
  • Существует ли лексический разрыв между запросом и правильными документами ответа, которые могут смутить ранжировщика? Могут ли синонимы/замедленное удаление/нижнее разделение/стебли и т. Д. Быть включены в ваши анализаторы индекса/запроса для улучшения совпадения между запросом и правильным ответом?
  • Есть ли дополнительные возможности, которые вы могли бы добавить и пройти к рангу во время обучения и времени выполнения, которые могли бы лучше улавливать совпадение вопросов и ответов кандидатов с результатом поиска? См. Здесь для получения дополнительной информации: https://medium.com/machine-learning-with-ibm-watson/developing-with-ibm-watson-retrieve-and-rank-part-3-custom-features-826fe88a5c63?cm_mc_uid=06908383978514879641730&cm_mc_sid_50200000=1488383112#.gtzsdg4k3

 Смежные вопросы

  • Нет связанных вопросов^_^