Я хотел бы создать внутреннюю поисковую систему (у меня очень большая коллекция тысяч XML-файлов), которая может отображать запросы к концепциям. Например, если я ищу «больших кошек», я бы хотел получить высоко оцененные результаты, чтобы возвращать документы с «большими кошками». Но я также могу быть заинтересована в том, чтобы вернуть «огромных животных», хотя и с гораздо более низким показателем релевантности.Как построить концептуальную поисковую систему?
В настоящее время я просматриваю обработку естественного языка в книге Python, и кажется, что WordNet имеет некоторые сопоставления слов, которые могут оказаться полезными, хотя я не уверен, как интегрировать их в поисковую систему. Могу ли я использовать Lucene для этого? Как?
Из дальнейших исследований кажется, что «скрытый семантический анализ» имеет отношение к тому, что я ищу, но я не уверен, как его реализовать.
Любые советы о том, как это сделать?
Хорошая точка при запуске проста. В этом случае, хотя потенциальные клиенты для приложения, которое я создаю, уже имеют «обычные» поисковые системы. У меня есть причина полагать, что более интеллектуальный движок может принести ощутимую ценность, поэтому я хотел бы знать, является ли это возможной проблемой для атаки, прежде чем я вступлю, чтобы создать продукт «я слишком». – DevX
@DevX: Пожалуйста, замедляйтесь. «Более интеллектуальный двигатель» - это одно. Постройте это в первую очередь. Интеграция - это наименьшее из ваших забот. Сохраните это для последнего после того, как вы получите «более интеллектуальный движок». Я повторю это, потому что вы, кажется, не читаете его: интеграцию можно оставить надолго, после того, как вы получите некоторый опыт работы с инструментами и решите основную проблему. –
+1 для шага 2. – Skarab