2016-05-20 7 views
1

Я пытаюсь запустить hlda algorytmm и создать описательную иерархию входных документов. Проблема в том, что я запускаю различные конфигурации параметров и пытаюсь понять, как это работает «эмпирически», потому что я не могу сопоставить те, которые используются в оригинальных документах (я понимаю, что это другая команда). Например. Альфа в Маллет, похоже, эта, но я не очень уверен. Кроме того, я не могу знать границ для каждого из них. Я имею в виду диапазон возможных значений для каждого параметра.Диапазон возможных значений для параметров альфа, гамма и этала реализации Mallet HLDA

В исходном коде, есть некоторая помощь:

double alpha; // smoothing on topic distributions 
double gamma; // "imaginary" customers at the next 
double eta; // smoothing on word distributions. 

Во-первых, я использовал значения по умолчанию: альфа = 10,0; гамма = 1,0; eta = 0,1;

Затем я попытался запустить алгоритм, изменив значения и интерпретируя результаты, но я не могу понять их смысл. Например. Я думаю, что изменение гаммы (в Mallet) влияет на решение клиентов: запустить новый узел в дереве или разместить его в существующем. Итак, если я задал гамма = 0,5, нужно создать меньше узлов, потому что 0,5 - половина вероятности по умолчанию, верно? Но результаты с gamma = 1 дают мне 87 узлов, а с гамма = 0,5, он возвращает 98! И тогда я спрашиваю у меня что-то новое: это вероятность? Я пытался найти диапазон возможных значений в этих двух работах, но я не нашел их:

  1. Hierarchical Topic Models andthe Nested Chinese Restaurant Process
  2. The Nested Chinese Restaurant Process and BayesianNonparametric Inference of Topic Hierarchies

Я знаю, что может быть что-то не хватает, потому что я у меня нет хорошего фона, но именно поэтому я спрашиваю здесь, может быть, у кого-то уже была эта проблема и может помочь мне понять эти ограничения.

Заранее благодарен!

ответ

2

Может быть полезно выполнить несколько раз с каждой настройкой гиперпараметра. Я подозреваю, что гамма не оказывает большого влияния на конечное количество тем, и то, что вы видите, может быть типичной изменчивостью в процессе выборки.

В моем опыте параметр, который оказывает самое сильное влияние на количество тем, на самом деле является этакой, сглаживанием словесного слова.