Как бы вы решили эту проблему?Карта RSS-записей в HTML-корпус w. неточный поиск
Вы очищаете HTML-блоги. Некоторые из HTML-блога - это сообщения в блогах, некоторые из них - форматирование, боковые панели и т. Д. Вы хотите, чтобы узнать, какой текст в HTML принадлежит какому сообщению (т. Е. Постоянная ссылка), если таковая имеется.
Я знаю, что вы думаете: вы можете просто взглянуть на RSS и вообще проигнорировать HTML! Тем не менее, RSS очень часто содержит только очень короткие отрывки или полосы ссылок, которые могут вас заинтересовать. Вы хотите по существу победить выдержку RSS, используя HTML и RSS одной и той же страницы вместе.
RSS-запись выглядит следующим образом:
title excerpt of post body permalink
Столб блог в HTML выглядит следующим образом:
title (surrounded by permalink, maybe) ... permalink, maybe ... post body ... permalink, maybe
Так страница HTML содержит те же поля, но размещение Permalink не известно а поля будут разделены каким-то шумовым текстом, который в основном представляет собой HTML и пробел, но также может содержать некоторые дополнительные метаданные, такие как «отправленный Джонни» или дата или что-то в этом роде. Текст также может быть немного отличающимся в HTML и RSS, как описано ниже.
Дополнительные правила/предостережения:
- Название не может быть уникальным. Это происходит чаще, чем вы думаете. Примеры, которые я видел: «Monday roundup», «TGIF» и т. Д.
- Названия могут быть пустыми.
- Выдержки из RSS также являются необязательными, но предполагается, что должно быть по крайней мере либо не пустое отрывок, либо непустое название
- RSS-фрагмент может содержать полный контент, но скорее всего содержит краткий отрывок из начало почтового тела
- Предположим, что постоянные ссылки должны быть уникальными и должны быть одинаковыми как в HTML, так и в RSS.
- Название и выдержка и тело сообщения могут быть отформатированы несколько иначе в RSS и в HTML. Например:
- RSS может содержать HTML внутри заголовка или тела, а на HTML-странице может быть добавлен HTML-код (например, вокруг первой буквы тела сообщения) или может быть отформатирован несколько иначе
- Текст может быть закодирован несколько иначе, например, utf8 в RSS, а символы не-ascii в HTML всегда кодируются с использованием амперсандовой кодировки. Однако предположим, что это текст на английском языке, где символы не-ascii встречаются редко.
- Возможно, была ужасно ужасная ошибка Windows-1252. Это часто случается для символьных символов, таких как фигурные кавычки. Однако можно с уверенностью предположить, что большая часть текста является ascii.
- В любом направлении может быть свертывание в футляре, особенно в названии. Таким образом, они могли бы полностью загладить заголовок на странице HTML, но не в RSS.
- Количество записей в канале RSS и HTML-странице не предполагается одинаковым. Либо может быть больше или меньше старых записей. Мы можем только ожидать получить только те сообщения, которые появляются в обоих.
- RSS может быть отложен.На странице HTML может появиться новая запись, которая пока не отображается в ленте RSS. Это может произойти, если RSS синдицируется через Feedburner. Опять же, мы можем только ожидать разрешения тех сообщений, которые появляются как в RSS, так и в HTML.
- Тело сообщения может быть очень коротким или очень длинным.
100% точность не ограничение. Однако, чем точнее, тем лучше.
Хорошо, что бы вы сделали?
проблема с грубыми парами первой пары. Редактировать? – Triptych 2008-12-19 16:11:01