3

Как использовать красивый суп и selectorgadget для очистки сайта. Например, у меня есть сайт - (a newegg product), и я хотел бы, чтобы мой скрипт возвращал все спецификации этого продукта (нажмите «ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ»), я имею в виду - Intel, Desktop, ......, 2.4GHz, 1066Mhz,. ....., 3 года ограничен.Разбор HTML-файла с selectorgadget.com

После использования selectorgadget я получаю string- .Desc

Как использовать это?

Спасибо :)

ответ

1

Инспектирующего страницу, я могу видеть, что спецификации помещаются в DIV с ID pcraSpecs:

<div id="pcraSpecs"> 
    <script type="text/javascript">...</script> 
    <TABLE cellpadding="0" cellspacing="0" class="specification"> 
    <TR> 
     <TD colspan="2" class="title">Model</TD> 
    </TR> 
    <TR> 
     <TD class="name">Brand</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD> 
    </TR> 
    <TR> 
     <TD class="name">Processors Type</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>  
    </TR> 
    ... 
    </TABLE> 
</div> 

убыванием является классом ячеек таблицы.

Что вы хотите сделать, так это извлечь содержимое этой таблицы.

soup.find(id="pcraSpecs").findAll("td") должно начаться.

0

Вы пробовали использовать Feedity - http://feedity.com для создания пользовательской RSS-ленты с любой веб-страницы.