Я пытаюсь запустить hlda algorytmm и создать описательную иерархию входных документов. Проблема в том, что я запускаю различные конфигурации параметров и пытаюсь понять, как это работает «эмпирически», потому что я не могу сопоставить те, которые используются в оригинальных документах (я понимаю, что это другая команда). Например. Альфа в Маллет, похоже, эта, но я не очень уверен. Кроме того, я не могу знать границ для каждого из них. Я имею в виду диапазон возможных значений для каждого параметра.Диапазон возможных значений для параметров альфа, гамма и этала реализации Mallet HLDA
В исходном коде, есть некоторая помощь:
double alpha; // smoothing on topic distributions
double gamma; // "imaginary" customers at the next
double eta; // smoothing on word distributions.
Во-первых, я использовал значения по умолчанию: альфа = 10,0; гамма = 1,0; eta = 0,1;
Затем я попытался запустить алгоритм, изменив значения и интерпретируя результаты, но я не могу понять их смысл. Например. Я думаю, что изменение гаммы (в Mallet) влияет на решение клиентов: запустить новый узел в дереве или разместить его в существующем. Итак, если я задал гамма = 0,5, нужно создать меньше узлов, потому что 0,5 - половина вероятности по умолчанию, верно? Но результаты с gamma = 1 дают мне 87 узлов, а с гамма = 0,5, он возвращает 98! И тогда я спрашиваю у меня что-то новое: это вероятность? Я пытался найти диапазон возможных значений в этих двух работах, но я не нашел их:
- Hierarchical Topic Models andthe Nested Chinese Restaurant Process
- The Nested Chinese Restaurant Process and BayesianNonparametric Inference of Topic Hierarchies
Я знаю, что может быть что-то не хватает, потому что я у меня нет хорошего фона, но именно поэтому я спрашиваю здесь, может быть, у кого-то уже была эта проблема и может помочь мне понять эти ограничения.
Заранее благодарен!