2010-11-22 1 views

ответ

1

Вы можете просмотреть полнотекстовую индексацию, Lucene или Sphinx. Кроме того, поскольку вы делаете это только на тегах, вам нужно будет использовать некоторый токенизатор n грамм.

Обычно вы создаете индекс по длинному контенту или по крайней мере пару предложений. Большая часть токенизатора использует пространство и пунктуацию для разделения слов, в вашем случае было бы лучше, например, разделить каждые 3 символа. Так, например, если в вашем вашем есть

хост хостинга принимал

и входной узел пользователя, двигатель будет искать шалав + T и найти что-нибудь, имеющие эту комбинацию два.