Я пытаюсь создать веб-скребок, который будет анализировать веб-страницу публикаций и извлекать авторов. Скелетная структура веб-страницы заключается в следующем:Python web scraping с использованием HTML-тегов с атрибутами
<html>
<body>
<div id="container">
<div id="contents">
<table>
<tbody>
<tr>
<td class="author">####I want whatever is located here ###</td>
</tr>
</tbody>
</table>
</div>
</div>
</body>
</html>
Я пытался использовать BeautifulSoup и LXML до сих пор для решения этой задачи, но я не уверен, как обрабатывать два Div теги и td, потому что у них есть атрибуты. В дополнение к этому, я не уверен, должен ли я больше полагаться на BeautifulSoup или lxml или на комбинацию обоих. Что мне делать?
На данный момент мой код выглядит так, как это показано ниже:
import re
import urllib2,sys
import lxml
from lxml import etree
from lxml.html.soupparser import fromstring
from lxml.etree import tostring
from lxml.cssselect import CSSSelector
from BeautifulSoup import BeautifulSoup, NavigableString
address='http://www.example.com/'
html = urllib2.urlopen(address).read()
soup = BeautifulSoup(html)
html=soup.prettify()
html=html.replace(' ', ' ')
html=html.replace('í','í')
root=fromstring(html)
Я понимаю, что многие операторы импорта может быть излишним, но я просто скопировал все, что в данный момент было более исходного файла.
EDIT: Я полагаю, что я не делал этого достаточно ясно, но у меня есть несколько тегов на странице, которые я хочу очистить.
Спасибо, Алекс. У меня несколько авторов на странице, поэтому у меня будет несколько тегов td. Как я могу перебирать каждую из них? – GobiasKoffi