2016-03-04 1 views
0

Я использую Stanford's NER CRF, и хочу обучить большие наборы данных, скажем, статьи новостей 100k. Как мне подготовить данные, как долго это займет? Я новичок в области машинного обучения и хотел бы получить какое-то направление.Как тренировать большие наборы данных со Стэнфордом NER CFR

Вопрос 1: Что означают все эти переменные? на кого я должен обратить внимание?

numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.

Вопрос 2: Должен ли я запустить обучение на одной машине, или распределенные системы, как Hadoop?

Вопрос 3: Вычисление, как представляется, связано с процессором и памятью, как я могу преодолеть эти требования?

ответ

0
  • Не могли бы вы предоставить более подробную информацию о ваших данных обучения. Обычно вы обучаете систему NER по данным, помеченным человеком, например, набор данных CoNLL 2003 года. Сколько у вас данных с меткой человека?

  • Справка для системы РЭК имеет несколько советов по восстановительной памяти:

    http://nlp.stanford.edu/software/crf-faq.shtml#d

  • В это время не вариант, чтобы запустить обучение NER на более чем одной машине.

  • Я не уверен в этом, но, по-моему, по умолчанию CRFClassifier будет использовать многопоточность при оценке градиентов ... если он не использует многопоточность, добавление следующего к вашим свойствам должно привести к начать использовать многопоточность с числом нитей, указанное:

    multiThreadGrad=4