2016-06-21 11 views
1

Я тренирую word2vec по биомедицинским текстам. Для того, чтобы выполнять тесты сходства слов и словесности, я хочу иметь пары биомедицинских терминов, имеющих одинаковые отношения (может быть любой), так же, как у нас есть полный список данных City-State в word2vec. Я пробовал искать в Интернете, но, поскольку я новичок в домене, я нахожу его запутанным.Наборы данных в Biodomain, подобные наборам данных сходства слов, используемые в word2vec и перчатке

Итак, где я могу найти список, относящийся к Drug-gene или Protein-action и т. Д.? Или как я могу добыть эти данные. Пожалуйста, предлагайте общедоступные такие наборы данных. Также, пожалуйста, предложите любые дополнительные интересные отношения, которые я также могу запросить.

Другим способом было бы использовать доступные онтологии, поскольку они включают отношения между понятиями, такими как has-part, is-a-way-of-doing, is-a-cause-of, is-a-symm-of и т. Д. Могу ли я использовать онтологии для извлечения таких пар? Если да, то какие онтологии и как?

Имеются ли уже имеющиеся стандартные комплекты золота, которые могут служить моей цели?

ответ

1

Итак, где я могу найти список, относящийся к Drug-gene или Protein-action, и т. Д.?

Посмотрите на ChEMBL, например. aspirin связана с его мишенью cyclooxygenase

Другим способом был бы использовать имеющиеся онтологии, поскольку они включают в себя отношений между такими понятиями, как есть-часть, это-путь-оф-делать, это-причина -о, -а-симптом и т. д. Могу ли я использовать онтологии для извлечения таких пар? Если да, то какие онтологии и как?

Хороший старт - ChEBI ontology.

 Смежные вопросы

  • Нет связанных вопросов^_^