2017-02-22 23 views
-1

Хорошо, я признаю это - это плохой вопрос. Вы должны, вероятно, понизить его;) Однако, поскольку мне действительно нужно некоторое понимание, если вы могли бы подождать, пока какая-то добродушная душа ответит ему сначала.Поиск неисправностей в наборе данных Tensorflow RNN

У меня есть учебное пособие по RNN, которое было успешно запущено. Я NOOB для этого, хотя у меня есть достойное чувство для кода. К сожалению, the TensorFlow RNN tutorial не определяет (по крайней мере, для меня) несколько критических элементов, необходимых для понимания:

  1. Что такое логическое различие между профессиональной подготовки и проверки наборов? В частности, с точки зрения содержания файла в 'ptb.train.txt' и '' ptb.valid.txt

    Например, ptb.train.txt содержит:

    there is no asbestos in our products now 
    

    Однако ни asbestos, ни in our products появляется в ptb.valid.txt, поэтому непонятно, что готовится и что проверяется.

  2. Моя «Испытательная неловкость» представлена ​​в виде 121.236. Что это значит? Опять же, мне бы очень хотелось узнать в терминах файла «ptb.test.txt» - что измеряется?

    Другой типичный пример: ptb.test.txt содержит:

    the offers were to work as a writer not an editor 
    

    Ни эта «последовательность», ни близко подмножество не появляется либо в ptb.train.txt или ptb.valid.txt файлов. Может быть, я полностью вне базы, но я думал, что цель состоит в том, чтобы соответствовать таким последовательностям. Это неверно? Как связанное с этим недоумение связано с этим?

  3. Наконец (опять же, здесь NOOB), для подготовки этого простого примера требуется довольно много времени. Есть ли способ сохранить «обученную» систему, чтобы я мог запускать ее против разных тестовых наборов данных?

    Update Я считаю, что вопрос № 3 является answered in this SO question

+0

нормально downvoted ... – fabrizioM

ответ

0
  1. Есть несколько элементов, которые вы должны научиться понимать процедуру. Алгоритмы машинного обучения проходят обучение по заданному набору данных. Эти алгоритмы могут потенциально «запомнить» весь ваш набор данных, чтобы они дали вам правильный ответ для вашего набора данных все время. Правильный ответ - ожидаемый результат вашей проблемы. Если модель запоминает все данные вашего поезда, она не будет очень хорошо реагировать на новые входные данные, которые не видели, и поэтому его интеллектуальная мощность не будет очень хорошей. Для того, чтобы подготовить модель, чтобы лучше предсказательной силы, вы разделяете набор данных в поезде и проверки, где подмножество проверки не используется для обучения, но используется для управления, что модель не запоминая поезд набор данных.

  2. растерянность специфический показатель, чтобы оценить, насколько хорошо модель

  3. Да, вы можете обратиться к документации: https://www.tensorflow.org/programmers_guide/variables

+0

я попытался дополнить этот вопрос с более спецификой о том, что я не понимаю. Из вашего ответа я вижу, что мой вопрос действительно упустил отметку. Я не вижу, как последовательности проверяются или проверяются с учетом содержимого файлов, а также то, как это связано с недоумением. – JoeG

0
  • Учебные комплекты для оптимизируют модели.
  • Наборы данных для проверки должны быть проверены, если модель по подгонке или переустановка данные обучения.
  • После того как вы тренировали модель и чувствовать себя, как он брикетирование хорошо использовать тестовые набор данных, чтобы проверить, если вы настроенные модель слишком тонко на основе результатов от ваших наборов данных проверки и вызвала модель для преодоления подходят данные реального мира.

Кроме того, эти вопросы принадлежат https://stats.stackexchange.com/ :)