У меня есть 20 000 текстовых файлов, загружаемых в базу данных PostgreSQL, один файл в одной строке, все хранятся в таблице с именем docs
с колонками doc_id
и doc_content
.Кластерные текстовые документы в базе данных
Я знаю, что существует приблизительно 8 типов документов. Вот мои вопросы:
- Как найти эти группы?
- Есть ли какое-то сходство, меры несходства, которые я могу использовать?
- Есть ли какая-либо реализация самой длинной общей подстроки в PostgreSQL?
- Существуют ли расширения для текстовой обработки в PostgreSQL? (Я нашел только Tsearch, но это, кажется, последнее обновление в 2007 году)
я, вероятно, может использовать некоторые like '%%'
или SIMILAR TO
, но может быть более эффективным подходом.