Я ищу инструмент для извлечения текстовых данных из документа. В частности, я хотел бы иметь возможность извлекать метаданные из счетов-фактур, таких как номер счета, имя поставщика, дата счета, дата платежа, сумма и т. Д. Поскольку счета-фактуры поступают от моих поставщиков, перечисленные мной метаданные будут расположены на разных области документа. Я не смог определить, может ли Tika найти ключевое слово в документе, например, INVOICE, а затем извлечь номер счета-фактуры. Я хотел бы иметь возможность извлечь эти данные, а затем переместить документ и метаданные в систему управления документами, такую как SharePoint или Alfresco. Кто-нибудь имеет опыт работы с Tika, и знаете ли вы, возможно ли это?Извлечь текстовые данные из документа с помощью Apache Tika
ответ
Вы можете использовать ephesoft и alfresco.
Использование ephesoft: вы можете извлекать данные.
Использование alfresco: вы можете хранить извлеченные данные с помощью документа.
Его хорошее сравнение с Тикой.
Часы ниже.
https://www.youtube.com/watch?v=soV-9GGhuBg
Hi Krutik, У меня было сообщество Ephesoft, которое подключилось к Alfresco. Проблема, с которой мы сталкиваемся, - это сообщество, с которым сложно работать, и очень сложно создать документ для извлечения. Я надвигаюсь на другие варианты, но первоначально Ephesoft был моим первым вариантом. – Christopher
F_puras, если я извлечу весь текст, как вы думаете, можно будет искать ключевые слова, а затем извлечь их, например invoive, вывести номер счета на основе регулярного выражения? – Christopher
Да его возможно. Я думаю, что у ephesoft есть много возможностей для OCR и многих других вещей. –
Извлеките весь текст с помощью Tika, а затем найдите его для полей/рисунков, которые вы хотите. – doelleri