2009-03-19 2 views
2

Я хочу создать небольшое приложение, которое пойдет на некоторые веб-сайты и прочитает конкретные данные с этого сайта, я хочу, чтобы приложение было общим, так как я могу так работать на любом веб-сайте, который я хочу позже. Итак, есть хороший способ проанализировать сайт с использованием .net?Каким образом можно получить данные с других веб-сайтов программным путем? «amazon предлагает, например,«

ответ

2

Мне сказали, что хороший инструментарий для выполнения скрипирования экрана в .NET равен HTML Agility Pack.

Вы должны знать, что всегда очень сложно сделать решение для очистки экрана стабильным или универсальным, как вы описываете.

Смотри также другие ответы на этот вопрос: Screen scraping: regular expressions or XQuery expressions?

0

Предполагая, что данные, которые вы пытаетесь получить, недоступны через RSS или другие подобные средства, похоже, что вы собираетесь искать скребок страницы. Googling для «.NET scapper HTML» возвращает большую информацию по этой теме.

1

Если вы не собираетесь использовать этот сценарий, посмотрите на Watin. Я предполагаю, что вы хотите сделать, это очистить экран. Watin довольно легко уйти и избавит вас от написания большей части кода синтаксического анализа.

0

Чтение веб-сайта, предназначенного для чтения людьми, всегда является проблемой. Я делаю это уже несколько лет, и это никогда не было легко. Всегда полезно следить за данными, которые вам нужны в некоторых других, таких как XML или RSS.

Всегда помните, что макет сайта может измениться, и вам необходимо адаптировать приложение. Но главная проблема - найти нужную вам информацию на странице. Нам всегда нужно много строковых методов, таких как contains, left, mid, indexOf.

HTML - это своего рода XML, поэтому, возможно, XMLParser будет работать. Но браузеры всегда немного более терпимы и принимают и отображают много страниц, которые плохо отформатированы.

0

Если сайт не предоставляет API, вы в конечном итоге «соскаблируете» веб-сайт. Хотя это, безусловно, возможно, оно чрезвычайно хрупкое. Если веб-сайт изменится, логика, которую вы используете для «поиска» информации, которую вы хотите, сломается. Наличие универсального приложения, которое найдет конкретную информацию, является отличной концепцией, но трудно реализовать надежно.

1

с помощью Wget для окон и регулярных выражений должны делать то, что вы хотите. Вы используете wget для получения исходного кода, а затем используете регулярные выражения для фильтрации всего кода или получения именно того, что вы ищете, если у него есть шаблон.

+0

для справки это wget url http://www.gnu.org/software/wget/ –

 Смежные вопросы

  • Нет связанных вопросов^_^