Я работаю над программой, которая ищет что-то в Интернете с помощью xgoogle
, а затем находит все файлы на сайтах результатов. У меня возникли проблемы с поиском всех файлов на веб-сайте. Я нашел question, который был похож, но я не мог заставить его работать. Вот код, который я использовал.Составьте список всех файлов на сайте
from bs4 import BeautifulSoup
import requests
def find_files():
url = "http://www.python.org"
soup = BeautifulSoup(requests.get(url).text)
for a in soup.find('div', {'class': 'catlist'}).find_all('a'):
yield url + a['href']
Код не запускается, когда я его вызываю. Я поставил операторы печати в функцию, но ничего не происходит. Что мне делать, чтобы исправить это? Как эта функция может вернуть список всех файлов на веб-сайте?
привет, что вы подразумеваете под «файлами на сайте»? Вы имеете в виду ссылки на страницах? – msturdy
Я имею в виду файловую систему страницы. Например, результатом find_files («http://www.python.org») будет http://www.python.org/doc/, а также http://www.python.org/about/ и все другие каталоги и файлы, находящиеся в файловой системе сайта. – AHuman
Ни один из них не является «файлами» или «каталогами». Это ссылки. –