Во-первых, вы должны уточнить, что именно вы пытаетесь выполнить.
Вам нужно определить объект, а затем локализовать его в 3D-координатах мира? Или вам нужна 3D-информация, чтобы обнаружить объект в первую очередь?
В первом случае есть несколько способов пойти. Один из них - это калибровка вашей системы стереокамер, обнаружение объекта в обеих камерах, а затем поиск его трехмерного местоположения путем триангуляции. Например, вы можете триангулировать центр тяжести объекта. Проблема с этим подходом заключается в том, что 2D-локализация детектора каскадного объекта может быть недостаточно точным, чтобы получить надежную трехмерную точку.
Другой способ - калибровать ваши камеры, а затем исправить изображения, чтобы они выглядели так, как будто камеры параллельны и выровнены по строкам. Теперь вместо триангуляции определенных точек вы можете вычислить карту несоответствий для всего изображения и получить соответствующее 3D-положение (теоретически) для любого пикселя. Теперь вы можете обнаружить свой объект интереса в камере 1, а затем использовать карту несоответствий, чтобы найти 3D-местоположение любой точки на объекте.
С другой стороны, если вы хотите использовать 3D-информацию для улучшения вашего обнаружения, вам нужно будет ознакомиться с некоторыми очень недавними исследованиями. Например, вот статья на people detection using RGB-D sensors. В документе рассказывается о дескрипторе HOD (гистограмма ориентированных глубин), в отличие от дескриптора HOG. Причина, по которой это имеет значение, заключается в том, что, если вы откалибруете свои камеры и исправьте свои изображения, вы можете получить такую же карту глубины, что и у датчика RGB-D, например Kinect.
Нет такой вещи, как «стереоскопический каскадный классификатор». но идея взять 2 обрезанных изображения (из CascadeClassifier) и сделать изображение 3d/disparity из этого звучит довольно разумно для меня. – berak
все это сводится к ограничению генерации изображения несоответствия обнаруженным областям из CascadeClassifier, нет? – berak
Справа. Я предполагаю, принимая смещение двух обнаруженных областей, я могу обнаружить несоответствие, что позволяет мне рассчитать расстояние до объекта. – immo99