text-extraction

4зной

5ответ

Скребковка самого большого блока текста из HTML-документа

Я работаю над алгоритмом, который попытается выбрать, учитывая HTML-файл, то, что он считает, является родительским элементом, который, скорее всего, содержит большую часть текста содержимого страницы

3зной

4ответ

Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах

Я хотел бы знать, что является лучшей библиотекой исходного eopen для сканирования и анализа веб-сайтов. Одним из примеров может быть агент агентства искателя, где я хотел бы получить информацию с нес