2015-03-28 1 views
0

Я пытаюсь проанализировать эту веб-страницу в фреймворке данных, но продолжаю застревать, используя XML-пакет, которому говорят, что это не XML.Веб-соскабливание и разбор HTML в R

Я хотел бы взять приведенный ниже текст и преобразовать в таблицу/data.frame - что является самым простым способом сделать это после того, как я взял текст URL и htmlParsed?

док = GetURL ("http://m.racingpost.com/card/blocks.sd?race_id=first&r_date=2015-03-28&tab=card&view=meetings&blocks=cards-list&_=1427439140572") док = htmlParse (док, AsText = Т)

ответ

3

URL-адрес возвращается JSON. Вы можете разобрать его, используя ряд R пакеты RJSONIO, rjson и jsonlite:

library(jsonlite) 
appURL <- "http://m.racingpost.com/card/blocks.sd?race_id=first&r_date=2015-03-28&tab=card&view=meetings&blocks=cards-list&_=1427439140572" 
appDATA <- fromJSON(appURL) 
appITEMS <- appDATA[["cards-list"]][["items"]] 
> appITEMS$c1083 
$abandonedCount 
[1] 0 

$crsName 
[1] "Chelmsford (AW)" 

$crsAbbr 
[1] "Cfd" 

$isForeign 
[1] "" 

$races 
id               title distance cls crsId time  date 
1 620151  Buy Online At chelmsfordcityracecourse.com Maiden Stakes  1m 4 1083 2:20 2015-03-28 
2 620152 Dubai World Cup toteplacepot Today Maiden Stakes (Plus 10 Race)  5f 4 1083 2:55 2015-03-28 
3 620153       &pound;1 Million totescoop6 Handicap  5f 2 1083 3:30 2015-03-28 
4 620154        toteexacta Pick The 1,2 Handicap  6f 4 1083 4:05 2015-03-28 
5 620155    totetrifecta Pick The 1,2,3 Handicap (Bobis Race)  1m 3 1083 4:40 2015-03-28 
6 620156            totepool Handicap  1m2f 2 1083 5:15 2015-03-28 
7 620157         Madness Live 3rd June Handicap  1m2f 4 1083 5:50 2015-03-28 
timestamp raceGroup hCount abandoned videoId going offers 
1 1427552400    8    57049 Standard NULL 
2 1427554500    5    57050 Standard NULL 
3 1427556600 Handicap  12    57051 Standard NULL 
4 1427558700 Handicap  7    57052 Standard NULL 
5 1427560800 Handicap  8    57053 Standard NULL 
6 1427562900 Handicap  7    57054 Standard NULL 
7 1427565000 Handicap  6    57055 Standard NULL 

Данные не возвращается в табличном формате, но вы можете работать с отдельными «пунктами» в соответствии с вашими потребностями. Пакет jsonlite также успешно возвращает соответствующие табличные структуры.

+0

Это выглядит здорово, но когда я делаю это, я получаю эту ошибку: – Tammboy

+0

Ошибка в feed_push_parser (buf): lexical error: invalid char в json text. Запросить Reje (прямо здесь) ------^ – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/4476003/">Tammboy</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">Когда я установил пакет curl, он сказал мне, что это была более ранняя версия r - это разница? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/4476003/">Tammboy</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048337"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Последний вопрос </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.uwenku.com/question/p-musoejmp-bea.html" target="_blank" title="NetworkOnMainThreadException когда Наблюдаемые subscrible rxjava"> NetworkOnMainThreadException когда Наблюдаемые subscrible rxjava </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Смежные вопросы</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item">Нет связанных вопросов^_^</li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ru.uwenku.com/contact">Свяжитесь с нами</a></li> <li>© 2020 RU.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>