Хотя веб-API SSOAP Chemspider позволяет извлекать химическую структуру данных соединений, он не позволяет извлекать экспериментально измеренные физико-химические свойства, такие как точки кипения и перечисленные синонимы.Скребковые экспериментально измеренные физико-химические свойства и синонимы из Chemspider в R
E.g. если вы посмотрите в http://www.chemspider.com/Chemical-Structure.733.html это дает список синонимов и экспериментальных данных в свойствах (вы должны зарегистрироваться первым, чтобы увидеть эту информацию), который я хотел бы получить в R.
я каким-то образом, делая
library(httr)
library(XML)
csid="733" # chemspider ID of glycerin
url=paste("http://www.chemspider.com/Chemical-Structure.",csid,".html",sep="")
webp=GET(url)
doc=htmlParse(webp,encoding="UTF-8")
, но тогда я хотел бы получить и проанализировать участки с химическими свойствами следующих
<div class="tab-content" id="epiTab"> and
<div class="tab-content" id="acdLabsTab">
, а также получать все синонимы, данные после каждой секции
<p class="syn" xmlns:cs="http://www.chemspider.com" xmlns:msxsl="urn:schemas-microsoft-com:xslt">
Что было бы самым элегантным способом сделать это, например. используя xpathSApply
(в отличие от простой работы strsplit
/)?
веселит, Том
Большое спасибо за это - это будет очень хорошее начало для меня, чтобы пройтись! THX много! И да, я знаю, веб-скребок не идеален, но из-за ограничений лицензирования они не предлагают веб-сервисы SOAP для извлечения этой информации (для получения InChI и т. Д. Интерфейс SOAP отлично работает). –
Вопрос к разделу # synonyms tab: есть ли способ не просто захватить базовый набор, но получить все синонимы, которые появляются с помощью «больше ...»? – user2030503