1

В LSH, вы hash slices of the documents в ковши. Идея состоит в том, что эти документы, попавшие в одни и те же ведра, будут потенциально похожи, и, возможно, ближайший сосед.Количество ковшей в LSH

Для 40 000 документов, что является хорошим значением (в значительной степени) для количества ведер?

У меня это как: number_of_buckets = 40.000/4 сейчас, но я чувствую, что его можно уменьшить больше.

Любые идеи, ?


Относительные: How to hash vectors into buckets in Locality Sensitive Hashing (using jaccard distance)?

+1

Немного непонятно, что вы на самом деле имели в своем предыдущем вопросе: «документы в виде столбцов и слов в виде строк [..] каждая полоса имеет свои столбцы хэшированные, так что столбец попадает в ведро. в том же ковше, для> = 1 полосы, то они потенциально похожи ». Во всяком случае, общей отправной точкой является использование 'sqrt (n)' buckets для 'n' документов. Вы можете попробовать удвоить и сократить вдвое и провести анализ, чтобы узнать, какие у вас распределены документы. – NikoNyrh

ответ

1

Общей отправной точкой является использование sqrt(n) ведра для n документов. Вы можете попробовать удвоить и сократить вдвое и провести анализ, чтобы узнать, какие у вас распределены документы. Естественно, можно попробовать и другие экспоненты, и даже K * log(n), если вы ожидаете, что количество отдельных кластеров будет расти медленно.

Я не думаю, что это точная наука, она относится к аналогичной теме, как выбор оптимального k для k-means clustering.

 Смежные вопросы

  • Нет связанных вопросов^_^