2010-07-31 4 views
3

Мне любопытно просканировать сайт (например, как это делается и т. Д.), В частности, что я хотел бы написать скрипт для выполнения задачи для сайта Hype Machine. Я на самом деле студентка по разработке программного обеспечения (4-й год), однако мы не занимаемся каким-либо веб-программированием, поэтому мое понимание Javascript/RESTFul API/Все вещи в Сети довольно ограничены, поскольку мы в основном сосредоточены на теории и клиентских приложениях , Любая помощь была оценена.Как очистить сайты, такие как Hype Machine?

+0

Интересно отметить, что Hype Machine не имеет файла robots.txt, поэтому похоже, что им не кажется, что кто-либо выскальзывает. –

+0

что интересно ...Мне любопытно написать сценарий для себя, чтобы загрузить песни, а не посещать сами сайты ... – Setheron

+0

Вот сообщение в блоге, которое я написал некоторое время назад: [Скребок в .NET] (http: //www.truewill. сеть/MyBlog/index.php/2007/12/30/web_scraping_in_net). – TrueWill

ответ

4

Первое, что нужно искать, - это то, что сайт уже предлагает какие-то структурированные данные, или если вам нужно самостоятельно проанализировать HTML-код. Похоже, есть RSS feed of latest songs. Если это то, что вы ищете, было бы неплохо начать там.

Вы можете использовать язык сценариев для загрузки фида и его анализа. Я использую python, но вы можете выбрать другой язык сценариев, если хотите. Вот некоторые документы о том, как вы могли бы download a url in python и parse XML in python.

Еще одна вещь, которую следует помнить, когда вы пишете программу, загружающую сайт или RSS-канал, - это то, как часто выполняется ваш скрипт скремблирования. Если вы его запускаете постоянно, так что вы получите новые данные, второй станет доступным, вы наложите большую нагрузку на сайт, и есть хорошие шансы, что они вас заблокируют. Старайтесь не запускать скрипт чаще, чем вам нужно.

+0

Кажется, я понимаю, как очищаются необработанные данные HTML, мне также любопытно, как можно соскрести песни. Я думаю, что их сделали через Flash Player. – Setheron

1

Вы можете проверить следующие книги:

"Webbots, пауками и Скреперы экрана: Руководство по разработке интернет-агентов с PHP/CURL" http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593271204

«HTTP Программирование Рецепты для C# Боты " http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/dp/0977320677

"HTTP Программирование Рецепты для Java Боты" http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/dp/0977320669

0

Я считаю, что самое важное, что вы должны проанализировать, - это какая информация вы хотите извлечь. Если вы хотите извлечь целые сайты, например google, вероятно, ваш лучший вариант - проанализировать такие инструменты, как nutch, из Apache.org или решения для флэторов http://ww.hounder.org Если вам нужно извлечь определенные области на неструктурированные документы данных - веб-сайты, документы, pdf - возможно, вы можете расширить nutch плагинов для удовлетворения конкретных потребностей. nutch.apache.org

С другой стороны, если вам нужно извлечь определенные текстовые или обрезанные области веб-сайта, на котором вы устанавливаете правила с использованием DOM страницы, вероятно, что вам нужно проверить, больше связано с такими инструментами, как mozenda.com , с помощью этих инструментов вы сможете настроить правила извлечения, чтобы отменить конкретную информацию на веб-сайте. Вы должны принять во внимание, что любые изменения на веб-странице дадут вам ошибку для вашего робота.

И, наконец, если вы планируете разрабатывать веб-сайт с использованием источников информации, вы можете приобретать информацию у таких компаний, как spinn3r.com, они продают конкретные ниши информации, готовые к употреблению. Вы сможете сэкономить много денег на инфраструктуре. надеюсь, что это поможет !. Себастьян.

0

Python имеет модуль feedparser, расположенный на канале feedparser.org, который фактически обрабатывает RSS в своих различных вкусах и ATOM в различных вариантах. Нет причин изобретать велосипед.

+0

Мне на самом деле пришлось очистить HTML, чтобы получить секретные ключи для их API;) – Setheron

 Смежные вопросы

  • Нет связанных вопросов^_^