Я работаю над алгоритмом, который попытается выбрать, учитывая HTML-файл, то, что он считает, является родительским элементом, который, скорее всего, содержит большую часть текста содержимого страницы. Например, было бы выбрать Див «содержание» в следующем HTML:Скребковка самого большого блока текста из HTML-документа
<html>
<body>
<div id="header">This is the header we don't care about</div>
<div id="content">This is the <b>Main Page</b> content. it is the
longest block of text in this document and should be chosen as
most likely being the important page content.</div>
</body>
</html>
я придумал несколько идей, таких как обход дерева HTML документа в его листьях, добавляя вверх по длине текст и только видя, какой другой текст имеет родитель, если родитель дает нам больше контента, чем дети.
Неужели кто-нибудь когда-либо пробовал что-то подобное или знал об алгоритме, который может быть применен? Он не должен быть твердым, но до тех пор, пока он может угадать контейнер, который содержит большую часть текста содержимого страницы (например, для статей или сообщений в блогах), это было бы потрясающе.
Любая удача Макс? Я пытаюсь сделать то же самое. – 2010-12-19 18:17:52
См. Мой ответ, который я только что добавил. – Max 2010-12-29 22:40:03