3

Я совершенно новый для области распознавания мимики лица и в настоящее время я делаю исследование по этому вопросу с помощью Deep Learning специально CNN. У меня есть некоторые вопросы относительно подготовки и/или предварительной обработки моих данных.Выражения распознавание лица Подготовка данных для CNN

У меня есть сегментированное видео лобных мимик (например, 2-3 секунд видео человека, выражающий счастливой эмоцию, основанная на его/ее аннотацию).

Примечание: выражения, выводимые моих участники довольно низкая интенсивность (не преувеличенные выражения/микро-выражения)

Общего Вопрос: Теперь, как я должен подготовить свои данные для обучения с CNN (I я немного склонен к использованию глубокой учебной библиотеки, TensorFlow)?

Вопрос 1: Я прочитал некоторое глубокое признание мимики обучения на основе (ЧОК) документы, которые свидетельствуют, чтобы взять пик этого выражения (скорее всего, одно изображения) и использовать это изображение, как часть ваших данных обучения , Как узнать пик выражения? Какова моя основа? Если я собираюсь взять одно изображение, не будут ли потеряны некоторые важные рамки тонкости выражения, отображаемые моими участниками?

Вопрос 2: Или было бы также правильно выполнить сегментированного видео в OpenCV для обнаружения (например, Viola-Jones), обрезать и сохранить его лица в каждом кадре, и использовать эти изображения как часть моего обучения данные с соответствующими метками? Я предполагаю, что некоторые рамки граней будут лишними. Однако, поскольку мы знали, что участники наших данных показывают низкую интенсивность выражений (микро-выражения), некоторые движения лица также могут быть важными.

Я был бы очень признателен всем, кто может ответить, спасибо много!

ответ

2

как @unique обезьяны уже отмечался, это, как правило, контролируемая задача обучения. Если вы хотите извлечь независимую «пик» точки, я рекомендую вам сканировать входные изображения и найти один в каждой последовательности, чьи опорные точки отклоняются большинство из состояния покоя субъекта.

Если вы не получили состояние покоя, то как видео ролики обрезаны? Например, были ли испытуемые выносить выражение и удерживать его? Какая часть общего выражения (до, экспресс, после) покрывает клип? Возьмите одну или обе конечные точки видеоролика; график движения опорных точек с каждого конца, и смотреть для кадра, в котором разность является наибольшей, а затем поворачивает по направлению к другой конечной точке.

+0

Правильно, вот что я забыл упомянуть. Мои данные содержат спонтанные выражения лица. Сначала субъект записывался при выполнении определенной операции на весь сеанс. После сеанса ему/ей предлагается аннотировать всю деятельность, в которой, если он/она считает, что определенное выражение в течение определенного периода времени в видео, например, счастливо, он/она будет комментировать этот период времени, чтобы быть счастливым , Это процесс. Видео обрезаны в зависимости от аннотации темы, поэтому я считаю, что это может быть субъективное суждение, если я буду определять пик. Спасибо – Renz

+0

Это означает, что вы * имеете * состояние покоя на видео, а затем, с собственной оценкой субъекта, не находясь в особом эмоциональном состоянии. В этом случае применяется мой первый параграф. – Prune

+0

Говоря с вашим последним моментом, да, было бы полезно использовать видеоклип, чтобы выразить всю эмоцию. Тем не менее, мое понимание области говорит, что это излишне для вашего приложения: достаточно одного репрезентативного «пикового» кадра. – Prune

1

ответ 1: Обычно мы всегда зависим от чувства человека, чтобы решить, какое выражение является вершиной выражения (я думаю, вы можете различить разницу в улыбке и смехе)

ответа 2: если вы хочу, чтобы получить хороший результат, я предлагаю вам не относиться к данным так грубо, как этот метод

+0

** Ответ 1 **: Вы правы, это было бы довольно легко распознать выражения через человека зондирования, однако, не это быть предвзятым, чтобы сказать, что конкретное выражение (например) счастливым основанный на моем суд? Что, если другим людям это не так? Как я узнаю, выражает ли он страх, гнев и т. Д.? ** Ответ 2 **: Я на самом деле нейтрален это, пожалуйста, вы можете объяснить, почему это так, если мои участники демонстрируют низкую интенсивность выражения? Не важны ли небольшие движения на лице? – Renz

+0

@Renz вы можете просто судить об этом самим, проблема заключается в том, что модель машинного обучения может иметь такое же суждение, как и вы, или нет ..... –

+0

Прошу прощения, но я все еще не убежден вручную выбирая конкретный пик выражения, потому что он может быть предвзятым для моего понимания. Я думаю, если у вас есть документы, которые сделают это, это будет полезно, поэтому я могу с уверенностью спорить об этом. Спасибо – Renz