Для форматов в контейнере для Apache Tika требуется весь файл, чтобы быть уверенным в типе. Форматы файлов включают в себя почти все, основанный на почтовый файл (Word .docx
, OpenDocumentFormat .odf
, IWORKS и т.д.), что-нибудь на основе формата OLE2 (Excel .xls
, хангыль, MSI и т.д.), и почти все мультимедийные форматы. Вы можете часто делать хорошее предположение, основанное на имени файла и типе контейнера, но для того, чтобы убедиться, что вам нужно обработать весь файл, чтобы определить его содержимое, и, следовательно, тип файла
Для всего остального, если Tika может обнаружить файл тип, то нужны только первые несколько десятков КБ, часто даже первые несколько сотен байт. (В зависимости от формата, о котором идет речь - разные имеют свои предсказуемые подписи в разных местах)
Если вам не нужны самые лучшие оценки Tika, но они могут справиться с несколько более низкой определенностью (особенно в форматах на основе контейнеров), то просто просто дайте Тике начало файла. Или попросите Тику использовать только детектор мим-магии без каких-либо детекторов, специфичных для контейнера.
Для чего это файл? Многие типы файлов Tika могут обнаруживать всего несколько килобайт данных, но другим (например, форматам контейнера) нужен весь файл для разработки того, что они содержат, и, следовательно, точного типа – Gagravarr
ok Я этого не знал. Это будут документы, видеоролики и изображения. – jnbdz