Я пытаюсь проанализировать некоторые данные из таблицы (баланса) в каждом отчете о прибылях и убытках. Здесь я использую AMD в качестве примера, но не только для AMD.Python, проблемы с скрипом при анализе таблиц в отчетах о получении
Вот the link
Проблема у меня есть сейчас, что я не могу получить любое чтение - мой паук всегда возвращает пустой результат. Я использовал scrapy shell "http://example.com"
для проверки моего xpath, который я непосредственно скопировал из Google Chrome Inspector, и он все еще не работает.
Вот мой XPath (Chrome браузер при условии):
//*[@id="newsroom-copy"]/div[2]/div[8]/table/tbody/tr[9]/td[4]/text()
Вот мой код:
import scrapy
class ESItem(scrapy.Item):
Rev = scrapy.Field()
class ESSpider(scrapy.Spider):
name = "es"
start_urls = [
'http://www.marketwired.com/press-release/amd-reports-2016-second-quarter-results-nasdaq-amd-2144535.htm',
]
def parse(self, response):
item = ESItem()
for earning in response.xpath('//*[@id="newsroom-copy"]/div[2]/div[8]/table/tbody'):
item['Rev'] = earning.xpath('tr[9]/td[4]/text()').extract_first()
yield item
Ищу для извлечения «номера доходов» из таблицы в нижней части Отчет.
Спасибо!
я запускаю мой код, используя эту команду:
scrapy runspider ***.py -o ***.json
код работает нормально, никаких ошибок, просто не вернулся, что я на самом деле искать.
ОБНОВЛЕНИЕ: Я как бы выяснил что-то ... Я должен удалить тег «tbody» из XPATH, который я не понимаю ... Может кто-нибудь объяснить это немного, пожалуйста?
Вам нужно очистить его от сети? Существует множество финансовых авиз, которые уже используют эту информацию. – zhqiat
Моя основная цель - изучить Scrapy ...поэтому, да, есть некоторые API, которые я могу использовать, но я все еще хочу знать, как добиться этого сам. :) –