Я делаю проект, чтобы узнать связанные с болезнью гены, используя интеллектуальную обработку текста. Для этого я использую 1000 статей. У меня было 129 имен генов. Фактический набор данных содержит около 1000 записей. Теперь я хотел бы рассчитать точность и отзыв моего метода. Когда я сделал сравнение, из 129 генов 72 были найдены правильными. Таким образом, точность = 72/129. Верно ли это? Теперь, как я могу рассчитать отзыв? Пожалуйста, помогитеCalculte точность и отзыв для результата интеллектуального анализа
ответ
Wikipedia Article on Precision and Recall может помочь. Определений являются:
Precision: tp/(tp+fp)
Recall: tp/(tp + fn)
tp
Где истинные позитивы (гены, которые связаны с болезнью, и вы их нашли), fp
являются ложными срабатываниями (генов вы обнаружили, но они на самом деле не связаны с болезнью) и fn
являются ложными негативами (гены, которые на самом деле связаны с заболеванием, но вы их не нашли).
Я не совсем уверен, что представляют собой цифры, которые вы опубликовали. Вы знаете гены, которые действительно связаны с болезнью?
Вы, скорее всего, вычислили точность:
Accuracy = (tp + fp)/(Total Number)
Основной вопрос заключается в том, что статьи, которые я рассматриваю не может содержать все первоначально указанные имена генов с момента своего небольшого набора данных. Поэтому, вычисляя отзыв, вместо того, чтобы рассматривать знаменатель как 1000, я могу сравнить исходную базу данных генов со статьями, чтобы узнать, сколько из первоначально ассоциированных генов присутствует в литературе. то есть, если есть 1000 ассоциированных генов, я проведу 1000 из них, сколько из них есть в наборе данных, который я рассматриваю. Если это 300, я установил знаменатель как 300 вместо 1000. Это даст отзыв.
благодарит за ответ. Я очистил его в последний день, и я отправляю ответ ниже. – Ansu