Я бы хотел проверить, прежде чем начинать сканирование с помощью python scrapy. Я использую polipo/tor/scrapy на linux.подключение к проверке установлено до запуска scrapy
с этой настройкой, правильно используя тор на своих ползаниях. То, как я проверяю, правильно ли использует scrapy, является обход this page в myspider.
class mySpider(scrapy.Spider):
def start_requests(self):
yield Request('https://check.torproject.org/', self.parse)
def parse(self, response):
logging.info("Check tor page:" + str(response.css('.content h1::text')))
Однако я думаю, что может быть лучший/чистый способ сделать это. Я знаю, что могу check tor service status или check ip address, но я хочу проверить, правильно ли установлено соединение.
спасибо за ваш ответ. Я только что заметил, что скрученный использует txtorcon и не работает, поэтому я думаю, что scrapy использует txtorcon, поэтому я думаю, что я должен научиться getinfo в txtorcon вместо – PHA
Похоже, что это [torcontrolprotocol.py] (https: //github.com/meejah/txtorcon/blob/master/txtorcon/torcontrolprotocol.py#L384). Могло бы также использовать это, но это очень простой протокол, основанный на командах, ничего особенного для простых команд. Однако он усложняется анализом определенных результатов и пониманием того, как идентифицировать конец сообщения. – drew010
Если я правильно понимаю, что 'dormant' и' circuit-installed' вернут 1 и 0 соответственно, если Tor не использовался некоторое время. (1) Пробуют ли эти команды Tor? (2) Если не то, что было бы лучшим способом разбудить его? – nopara73