В LSH, вы hash slices of the documents в ковши. Идея состоит в том, что эти документы, попавшие в одни и те же ведра, будут потенциально похожи, и, возможно, ближайший сосед.Количество ковшей в LSH
Для 40 000 документов, что является хорошим значением (в значительной степени) для количества ведер?
У меня это как: number_of_buckets = 40.000/4
сейчас, но я чувствую, что его можно уменьшить больше.
Любые идеи, ?
Относительные: How to hash vectors into buckets in Locality Sensitive Hashing (using jaccard distance)?
Немного непонятно, что вы на самом деле имели в своем предыдущем вопросе: «документы в виде столбцов и слов в виде строк [..] каждая полоса имеет свои столбцы хэшированные, так что столбец попадает в ведро. в том же ковше, для> = 1 полосы, то они потенциально похожи ». Во всяком случае, общей отправной точкой является использование 'sqrt (n)' buckets для 'n' документов. Вы можете попробовать удвоить и сократить вдвое и провести анализ, чтобы узнать, какие у вас распределены документы. – NikoNyrh