Я тренирую word2vec по биомедицинским текстам. Для того, чтобы выполнять тесты сходства слов и словесности, я хочу иметь пары биомедицинских терминов, имеющих одинаковые отношения (может быть любой), так же, как у нас есть полный список данных City-State в word2vec. Я пробовал искать в Интернете, но, поскольку я новичок в домене, я нахожу его запутанным.Наборы данных в Biodomain, подобные наборам данных сходства слов, используемые в word2vec и перчатке
Итак, где я могу найти список, относящийся к Drug-gene или Protein-action и т. Д.? Или как я могу добыть эти данные. Пожалуйста, предлагайте общедоступные такие наборы данных. Также, пожалуйста, предложите любые дополнительные интересные отношения, которые я также могу запросить.
Другим способом было бы использовать доступные онтологии, поскольку они включают отношения между понятиями, такими как has-part, is-a-way-of-doing, is-a-cause-of, is-a-symm-of и т. Д. Могу ли я использовать онтологии для извлечения таких пар? Если да, то какие онтологии и как?
Имеются ли уже имеющиеся стандартные комплекты золота, которые могут служить моей цели?