3

Интуитивно, казалось бы, с учетом дюжины двухмерных изображений под разными углами почти любого объекта, было бы легко построить трехмерное представление этого объекта. Впоследствии библиотека трехмерных представлений, полученных таким образом, может быть использована для идентификации новых 2d-изображений.Что делает объектное представление и распознавание жестким?

Какая литература существует в этих строках и почему она еще не вызвала надежного распознавания объектов?

+2

Хорошо, попробуйте объяснить это на компьютере ... – delnan

+0

Это полезно ... Я имею в виду, я знаю, что были исследования по реконструкции 3d-сцены, а также 3D-реконструкция объекта, и сопоставление двухмерного изображения с 3D-объектом кажется быть более простой проблемой. Что дает? –

ответ

4

То, что вы хотите сделать, это действительно возможно, но (есть немало Буц)

для 3D реконструкции:

  • Для ничего, кроме простейших форм вам нужно больше, чем просто несколько дюжины изображений.
  • Форма, которую вы перестраиваете, должна иметь много узнаваемых функций, которые выглядят достаточно похожими с разных углов, чтобы вы могли их сопоставить.
  • Освещение должно быть довольно постоянным по всему вашему набору изображений, в противном случае тени отбрасывают вас (или вам нужно еще больше изображений)
  • даже с очень многофункциональными объектами (т. Е. Разнообразием цвета и формы) 3D точность восстановления из любой согласованной пары функций будет ужасной, если вы не будете полностью знать параметры (положение, направление обзора и угол открытия) камеры, используемой для каждого снимка.

Все эти проблемы могут быть решены, так что предположим, что вы это сделали, и теперь у вас есть новая картина с объекта, который вы хотите сопоставить с вашей 3D-формой.

Вы можете, конечно, попытаться найти 2D-проекцию своей фигуры, соответствующую новой картине, но пространство поиска там огромное. Вероятно, было бы намного проще и быстрее использовать систему поиска и сопоставления функций, созданную для первоначальной 3D-реконструкции, чтобы напрямую сопоставлять новое изображение с существующим набором и находить, где он подходит на этом объекте.

Итак, как только вы решите проблему создания первоначальной 3D-реконструкции, ваш второй шаг также будет выполнен в основном.

Photosynth - яркий пример этих двух шагов.Просмотрите сайт, попробуйте найти некоторые ссылки, которые у них есть.

Что касается вашего последнего шага, сильного распознавания объектов, просто представьте себе пространство для поиска! То, что вам нужно для сильного распознавания объектов, помимо хорошего представления объектов, которые вы хотите распознать, - это хороший способ поиска пространства объектов, который вы знаете, и хороший способ представить ваш новый объект (изображение объекта в этот случай) в этом пространстве. Об этом я почти ничего не знаю.

Для совпадения одного и того же объекта в разных 2D-изображениях есть SIFT features. Но я не думаю, что это хорошо отражается на 3D.

7

Это ваше слово «интуитивно», которое вызывает у вас неприятности. Ваш мозг не предназначен для того, чтобы быть очень хорошим в определенных задачах, например, умножать тысячи чисел в одно мгновение. Однако для сырой вычислительной мощности ваш мозг делает быстрый компьютер похожим на простые подмигивания (время реакции нервной системы составляет всего около 10 миллисекунд, но все эти 10^14 или около того нейронов, которые все работают параллельно, полностью превосходят любую современную машину). Просто так, что ваш мозг предназначен для решения проблем, которые являются более сложными с точки зрения вычислительной техники, такими как распознавание объектов на картинке, анализ звуковых данных и выбор отдельных громкоговорителей на фоне фонового шума. Научиться классифицировать и обрабатывать десятки тысяч типов объектов.

Невероятно интенсивные вычислительные вещи, которые ваш мозг призван делать очень хорошо, - это то, что человеку кажется «интуитивным». То, что оно не предназначено для действительно хорошо, кажется «неинтуитивным» или трудным. Но необработанное вычисление, необходимое для сильного распознавания объектов (потому что существует только так много видов объектов, многие из которых действительно имеют подобъекты, а также множественные классификации и нежесткие формы, например «брюки», «вода», «собака») является ПУТЕМ больше, чем нужно, чтобы выполнить вещи, которые считаются возможными только для компьютера. Такие вещи, как использование «здравого смысла» для решения повседневной проблемы, одинаково тривиальны для человека, но с точки зрения вычислительно невероятно сложны.

2

Обратите внимание, что вы описываете распознавание экземпляра. В наши дни компьютер действительно может хорошо зарекомендовать себя. Например, Google Goggles очень хорошо разбирается в таких достопримечательностях, как мост Золотые ворота и Эйфелева башня.

Тем не менее, компьютеры не в состоянии делать категорию распознавания и классификации. Создание десятков 2D-снимков для всех возможных объектов при всех типах условий освещения и т. Д. Становится очень трудноразрешимым. Тот факт, что некоторые объекты, такие как собака, может перемещаться, делает пространство возможностей еще большим. Компьютеры становятся намного хуже.

Кроме того, с биологической точки зрения, наше поле зрения составляет около 100 миллионов пикселей. Графические карты только начали становиться способными отображать столько данных в реальном времени. Понимая, что многие данные еще более интенсивно вычислительны.

Часто говорят о том, что машина достигает возможности 5-летнего человека обрабатывать информацию. Но давайте подумаем о том, сколько данных есть. 100 миллионов пикселей с 3 цветовыми каналами и 1 байт на пиксель = 300 МБ/с. Теперь умножьте это на 30 кадров в секунду, 31 556 926 секунд в год и 5 лет, вы получите примерно 1,4 экзабайта (1.4x10^18).