2016-03-24 9 views
0

Я использую Stanford POS Tagger для обучения корпуса. Я подготовил файл настроек «Prop» и сформировал данные и начал обучение.Стэнфордская тренировка Лямбда слишком большая

После этого я начал получать такие сообщения, как «Lambda Too Big», и эти сообщения продолжались до конца тренировки. Я попробовал модель после и продолжал давать мне «Исключение из памяти». Я устал от модели на HPC, которая имеет более 40 ГБ оперативной памяти и увеличила кучу java для использования 25 ГБ, но та же проблема все еще происходит.

Корпус, который я использую, имеет около 6000 предложений, минимальное количество слов в предложении составляет 3, а максимальное - 128 слов. Слово может иметь три тега одинаково, например {p1} {p2}.

Когда я начать обучение, вот журналы:

pcond initialized 
zlambda initialized 
ftildeArr initialized 
QNMinimizer called on double function of 337720 variables, using M = 10. 

Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt] 
      An explanation of the output: 
Iter   The number of iterations 
evals   The number of function evaluations 
SCALING  <D> Diagonal scaling was used; <I> Scaled Identity 
LINESEARCH  [## M steplength] Minpack linesearch 
        1-Function value was too high 
        2-Value ok, gradient positive, positive curvature 
        3-Value ok, gradient negative, positive curvature 
        4-Value ok, gradient negative, negative curvature 
       [.. B] Backtracking 
VALUE   The current function value 
TIME   Total elapsed time 
|GNORM|  The current norm of the gradient 
{RELNORM}  The ratio of the current to initial gradient norms 
AVEIMPROVE  The average improvement/current value 
EVALSCORE  The last available eval score 

Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE 
EVALSCORE 

Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901 
lambda 28341 too big: 623.5660256059567 
lambda 153849 too big: 623.5660256059567 

Кроме того, здесь находятся настройки, используемые в пропеллера файле:

## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments: 
        model = arabic.New.tagger 
        arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1) 
      wordFunction = 
       trainFile = format=TSV,Train.txt 
     closedClassTags = 
closedClassTagThreshold = 40 
curWordMinFeatureThresh = 1 
        debug = false 
      debugPrefix = 
      tagSeparator =/
       encoding = UTF-8 
       iterations = 100 
        lang = arabic 
    learnClosedClassTags = false 
     minFeatureThresh = 3 
      openClassTags = 
rareWordMinFeatureThresh = 3 
      rareWordThresh = 5 
        search = qn 
        sgml = false 
      sigmaSquared = 0.0 
        regL1 = 0.75 
       tagInside = 
       tokenize = false 
     tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer 
     tokenizerOptions = 
       verbose = false 
      verboseResults = true 
    veryCommonWordThresh = 250 
       xmlInput = 
       outputFile = 
      outputFormat = slashTags 
    outputFormatOptions = 
       nthreads = 1 

Может кто-нибудь сказать мне, что я делаю неправильно ?

ответ

0

Что касается размера сообщения Lambda, вы можете найти ответ здесь: Lambda Size is Too Bog

Что касается Out Of Memory Exception, пожалуйста spcifiy размера файла, который вы хотите пометить. В любом случае, я подозреваю, что вы пытаетесь передать большой файл для метки. Попробуйте передать файл 100 KB в качестве теста. Я не думаю, что вы получите сообщение об ошибке, если размер вашего файла невелик. Однако, если сообщение об ошибке Out Of Memory Exception продолжает показываться, вы можете оставить вопрос до java-nlp-user здесь: java-nlp-user. Пожалуйста, обратите внимание, что перед публикацией какого-либо вопроса вы должны подписать список.

Надеюсь, это поможет вам!

+0

Я попробую ваше предложение и отправлю сообщение ... Спасибо. – ykh