Я использую Stanford's NER CRF, и хочу обучить большие наборы данных, скажем, статьи новостей 100k. Как мне подготовить данные, как долго это займет? Я новичок в области машинного обучения и хотел бы получить какое-то направление.Как тренировать большие наборы данных со Стэнфордом NER CFR
Вопрос 1: Что означают все эти переменные? на кого я должен обратить внимание?
numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.
Вопрос 2: Должен ли я запустить обучение на одной машине, или распределенные системы, как Hadoop?
Вопрос 3: Вычисление, как представляется, связано с процессором и памятью, как я могу преодолеть эти требования?