Как извлечь информацию из html в C#?

Может ли кто-нибудь научить меня извлекать информацию из html в C#? Я работаю с библиотекой классов WinRT в C#.Как извлечь информацию из html в C#?

Я хочу извлечь основное содержимое и изображение из http://lifehacker.com/5923026/remains-of-the-day-google-image-search-gets-knowledge-graph-integration.

Вот частичный код сайта,

<html xmlns="http://www.w3.org/1999/xhtml" class="feature_chompcommentimages feature_s3upload feature_switch feature_powwowtest" xmlns:fb="http://www.facebook.com/2008/fbml"> 
    <head>

**<title>Remains of the Day: Google Image Search Gets Knowledge Graph Integration</title>** 
      <meta http-equiv="content-type" content="text/html; charset=utf-8" /> 
    <meta http-equiv="content-language" content="en" /> 
    <meta http-equiv="refresh" content="86400" /> 
    <meta name="robots" content="all" /> 
         <meta name="keywords" content="For What It&#039;s Worth, remainders, in brief, Lifehacker" /> 
        <meta property="fb:page_id" content="7568536355" /> 
           <meta name="title" content="Remains of the Day: Google Image Search Gets Knowledge Graph Integration" /> 
     **<meta name="description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS. " />** 
         <link rel="image_src" href="http://img.gawkerassets.com/img/17rm77tdcfd31jpg/original.jpg" /> 
      <meta property="og:image" content="http://img.gawkerassets.com/img/17rm77tdcfd31jpg/xlarge.jpg" /> 
        <meta property="og:site_name" content="Lifehacker"/> 
     <meta property="og:title" content="Remains of the Day: Google Image Search Gets Knowledge Graph Integration" /> 
     <meta property="og:description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS." /> 
     <meta property="og:type" content="article" />

можно использовать SyndicationFeed.Title.Text (используя Windows.Web.Syndication;) для извлечения Останки дня: Google Image Поиск Получает знаний Graph Интеграция

пожалуйста, помогите мне извлечь

<meta name="description" content="Google updates Image Search with Knowledge Graph integration, VLC for OS X now supports Retina display, Sparrow updates with Retina display and Mountain Lion support, and Amazon introduces barcode scanning app Flow for iOS. " />*

мне нужно извлечь основное содержание внутри

<div id="container"> <script type="text/javascript"> 

<!-- %JUMP:More &raquo;% --><\/p>\n<ul>\n<li><a href=\"http:\/\/insidesearch.blogspot.com\/2012\/07\/find-smarter-more-comprehensive-search.html\">Find Smarter, More Comprehensive Search by Image Results<\/a> <i>Google updated its Image Search with a couple of new features. One being an expanded view that lets searchers see the text around matching images, and the other being added support for Knowledge Graph to image search results, which means Google will attempt to identity any photo that you upload or link to and provide more information about the subject.<\/i> [Google Blog]<\/li>\n<li>

Содержание: «Найти Умнее, более полный поиск по результатам Image» «Google обновил свой поиск картинок с парой новых функций , Один из них представляет собой расширенный вид, который позволяет поисковым машинам видеть текст вокруг совпадающих изображений, а другой добавляет поддержку графика Знаний для результатов поиска изображений, что означает, что Google попытается идентифицировать любую фотографию, которую вы загружаете или связываете, и предоставляете дополнительную информацию о предмет. [Google Blog]»

спасибо !!

[7/4/12]
Простите, ребята, я пытаюсь извлечь текст (как строка) и изображение (ссылка или BitmapImage) из из HTML с помощью синтаксического анализа непосредственно из HTML или разобрать его, преобразовав его в XML в первую очередь.

Я использую HtmlAgilityPack из htmlagilitypack.codeplex.com с обучающей из 4guysfromrolla.com/articles/011211-1.aspx. Хотя я m все еще задается вопросом, есть ли лучшее решение для приложения Metro style, поскольку у HtmlAgilityPack не хватает поддержки для него. Например, у него есть метод для преобразования html в xml, но WinRT больше не поддерживает Xml TextReader из .NET.

Еще раз спасибо

источник

2012-07-03 Jerry

Где вы хотите извлечь информацию? Извлечение в виде потока или Извлечение в виде файла? –

Джерри, если ответ, который я дал, не тот, кого вы ищете, было бы более вежливо войти в контакт (например, комментировать мой ответ), а затем просто проголосовать за него. Вы просите о помощи, я пытаюсь вам помочь. –

У вас возникнут проблемы с обработкой этого файла как XML, потому что это недопустимый XML. Попробуйте использовать библиотеку разбора HTML. См. Http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c –

Джерри, а не разбор этого XML, я бы рекомендовал вам использовать RSS библиотеку. Взгляните на RssToolkit.

источник

2012-07-03 03:04:44

Спасибо, но я инструмент, совместимый с приложением Metro style. – Jerry

Добро пожаловать. –

ответ

Смежные вопросы