Как обнаружить основной тег статьи, как Evernote clipper сделал

Когда я пробовал с Evernote clipper extension, Я вижу очень полезную функцию. Когда я нажал на «статью», он дает мне действительно правильное основное содержание страницы. Пусть видеть результат, когда я использовал Evernote Clipper со страницей https://developer.chrome.com/extensions/api_index extract article in a page Как обнаружить основной тег статьи, как Evernote clipper сделал

Я смотрел на основной статье, что Evernote поле вне, в нескольких страницах, статья Infact извлекается из первой статьи тега. Однако клипсет evernote все еще хорошо работает со страницами, не использует этот тег.

Интересно, как это может сделать клипер Evernote? Существует ли поддержка js-библиотеки для обнаружения основного тега, содержащего основное содержимое страниц. Не могли бы вы дать мне несколько советов.

Спасибо заранее!

источник

2014-07-21 yelliver

Насколько мне известно, универсального js lib не существует. Инструмент Evernote использует собственный метод для извлечения «интересного» контента с веб-страницы. Вы можете получить доступ к коду клипера Evernote, чтобы попытаться понять процесс.

На мой макинтош, путь к расширению хром:

~/Library/Application Support/Google/Chrome/Default/Extensions/pioclpoplcdbaefihamjohnefbikjilc/6.2_0/

Вот еще один инструмент, который работает довольно так же: https://www.readability.com/

Вы также можете проверить эту тему: What algorithm does Readability use for extracting text from URLs?

или поиск на Google для таких терминов, как «extractio контента n js lib ', например. (Найдено этот один: https://github.com/hatena/extract-content-javascript)

Надеется, что это помогает

источник

2014-07-21 08:46:52

Благодарят Вас за suggession. Я смотрю на «читаемость» проекта, – yelliver

Как обнаружить основной тег статьи, как Evernote clipper сделал

ответ

Смежные вопросы