Может они должны быть отдельные вопросы, по одному для каждого формата, но ...PDF, PPT, DOC, и т.д., чтобы TEXT
Каковы наиболее НАДЕЖНЫЕ библиотеки (на любом языке), двоичные файлы (для любой платформы) или webservices (бесплатно или бесплатно) для конвертирования разнообразных «текстовых» форматов в простой текст?
Надежный, я имею в виду около 100% -ную возможность извлекать ВСЕГО текст, читаемый человеком,, а НЕ ВЫЗЫВАЕТ «код» или «разметку».
По текст, содержащий форматы, я имею в виду: все самые распространенные вещи, как PDF, PPT, DOC, DOCX, RTF, HTML, ".стр", ".KEYNOTE", ODT, и т.д. и т.п.
Пожалуйста, предложите обе эти пакеты/услуги, которые поддерживают многие этих форматов, а также те, которые только поддерживают один. Кроме того, есть ли программное обеспечение «стеки», которые «связывают вместе» множество пакетов/услуг с целью преобразования в текст?