Сегментация жестких движений - Rigid motion segmentation

В компьютерное зрение, сегментация жесткого движения это процесс разделения регионы, Особенности, или же траектории из видеопоследовательности в когерентные подмножества пространства и времени. Эти подмножества соответствуют независимым жестко движущимся объектам сцены. Цель этой сегментации - дифференцировать и выделить значимые жесткое движение из фона и проанализируйте его. Сегментация изображения методы маркируют пиксели как часть пиксели с определенными характеристиками в определенное время. Здесь пиксели сегментируются в зависимости от их относительного движения в течение периода времени, то есть времени видеопоследовательности.

Для этого был предложен ряд методов.[1] Не существует единого способа классификации сегментации движения из-за большого разнообразия в литературе. В зависимости от критерия сегментации, используемого в алгоритме, его можно условно разделить на следующие категории: различие изображений, статистические методы, вейвлеты, наслоение, оптический поток и факторизация. Более того, в зависимости от количества требуемых просмотров алгоритмы могут быть двух- или многовидовыми. Сегментация жестких движений нашла более широкое применение за последнее время с ростом наблюдение и редактирование видео. Эти алгоритмы обсуждаются далее.

Введение в жесткое движение

В целом движение можно рассматривать как преобразование объекта в пространстве и времени. Если это преобразование сохраняет размер и форму объекта, оно называется жестким преобразованием. Жесткое преобразование может быть вращательным, поступательным или отражающим. Мы определяем жесткое преобразование математически как:

Рисунок 1: Жесткое движение в 3-D

где F - жесткое преобразование тогда и только тогда, когда оно сохраняет изометрия и ориентация в пространстве.

В смысле движения жесткая трансформация - это движение твердого объекта в пространстве. Как показано на рисунке 1: это трехмерное движение представляет собой преобразование исходных координат (X, Y, Z) в преобразованные координаты (X ', Y', Z '), которое является результатом захваченного вращения и перемещения. матрицей вращения R и вектором трансляции T соответственно. Следовательно, преобразование будет:

куда,

R имеет 9 неизвестных, которые соответствуют углу поворота с каждой осью, а T имеет 3 неизвестных (Tx, Ty, Tz), которые учитывают перемещение в направлениях X, Y и Z соответственно. Это движение (3-D) во времени, когда оно фиксируется с помощью камера (2-D) соответствует смене пикселей в последующих кадрах видеопоследовательности. Это преобразование также известно как 2-D движение твердого тела или 2-D Евклидово преобразование. Это можно записать так:

куда,

X → исходная координата пикселя.

X '→ координата преобразованного пикселя.

R → ортонормированная матрица вращения с R ⋅ RТ = I и | R | = 1.

t → вектор трансляции, но в пространстве 2D-изображения.

Для наглядности рассмотрим пример видеопоследовательности камеры наблюдения за дорожным движением. В нем будут движущиеся автомобили, и это движение не меняет их форму и размер. Более того, движение представляет собой комбинацию вращения и преобразования автомобиля в 3D, что отражается в его последующих видеокадрах. Таким образом, говорят, что автомобиль движется жестко.

Сегментация движения

Рисунок 2: Алгоритм сегментации движения

Методы сегментации изображения заинтересованы в сегментировании различных частей изображения в соответствии с интересующей областью. Поскольку видео представляют собой последовательности изображений, сегментация движения направлена ​​на разложение видео на движущиеся объекты и фон путем сегментирования объектов, которые претерпевают различные модели движения. Анализ этих пространственный и временный Изменения, происходящие в последовательности изображений путем разделения визуальных элементов сцен на разные группы, позволяют нам извлекать визуальную информацию. Каждая группа соответствует движению объекта в динамической последовательности. В простейшем случае сегментация движения может означать извлечение движущихся объектов из неподвижной камеры, но камера также может двигаться, что приводит к относительному движению статического фона. В зависимости от типа извлекаемых визуальных характеристик алгоритмы сегментации движения можно в общих чертах разделить на две категории. Первый известен как сегментация прямого движения, при которой используются значения интенсивности пикселей изображения. Такие алгоритмы предполагают постоянное освещение. Вторая категория алгоритмов вычисляет набор характеристик, соответствующих реальным физическим точкам на объектах. Затем эти разреженные признаки используются для характеристики либо двухмерного движения сцены, либо трехмерного движения объектов в сцене. Существует ряд требований для разработки хорошего алгоритма сегментации движения. Алгоритм должен извлекать отдельные элементы (углы или выступающие точки), которые представляют объект ограниченным количеством точек, и он должен иметь возможность работать с окклюзии. На изображения также будет влиять шум и будут отсутствовать данные, поэтому они должны быть устойчивыми. Некоторые алгоритмы обнаруживают только один объект, но видеопоследовательность может иметь разные движения. Таким образом, алгоритм должен включать несколько детекторов объектов. Кроме того, тип модели камеры, если он используется, также характеризует алгоритм. В зависимости от характеристики объекта алгоритм может обнаруживать жесткое, нежесткое движение или и то, и другое. Более того, алгоритмы, используемые для оценки одиночных движений твердого тела, могут обеспечить точные результаты с устойчивостью к шуму и выбросам, но при расширении на множественные движения твердого тела они не работают. В случае описанных ниже методов сегментации на основе ракурсов это происходит из-за нарушения предположения о единой фундаментальной матрице, поскольку каждое движение теперь будет представлено посредством новой фундаментальной матрицы, соответствующей этому движению.

Алгоритмы сегментации

Как упоминалось ранее, не существует определенного способа различать методы сегментации движения, но в зависимости от критерия сегментации, используемого в алгоритме, его можно в общих чертах классифицировать следующим образом:[2]

Разница в изображении

Это очень полезный метод обнаружения изменений в изображениях из-за его простоты и способности справляться с окклюзией и множественными движениями. Эти методы предполагают постоянную интенсивность источника света. Алгоритм сначала рассматривает два кадра за раз, а затем вычисляет разницу яркости пиксель за пикселем. На этом вычислении это пороги разница в интенсивности и отображает изменения на контур. Используя этот контур, он извлекает пространственную и временную информацию, необходимую для определения движения в сцене. Хотя это простой в реализации метод, он не устойчив к шуму. Еще одна трудность с этими методами - движение камеры. При перемещении камеры происходит изменение всего изображения, которое необходимо учитывать. Для преодоления этих трудностей было введено много новых алгоритмов.[3][4][5][6]

Статистическая теория

Сегментацию движения можно рассматривать как проблему классификации, когда каждый пиксель должен быть классифицирован как задний или передний план. Такие классификации моделируются в рамках теории статистики и могут использоваться в алгоритмах сегментации. Эти подходы можно разделить в зависимости от используемой статистической основы. Наиболее часто используемые модели - это максимальная апостериорная вероятность (MAP),[7] Фильтр твердых частиц (ПФ)[8] и Максимизация ожиданий (ЭМ).[9]MAP использует правило Байеса для реализации, когда конкретный пиксель должен быть отнесен к предопределенным классам. PF основан на концепции эволюции переменной с переменным весом во времени. Окончательная оценка - это взвешенная сумма всех переменных. Оба эти метода являются итеративными. Алгоритм EM также является итеративным методом оценки. Он вычисляет оценку максимального правдоподобия (ML) параметров модели в присутствии отсутствующих или скрытых данных и определяет наиболее вероятное соответствие наблюдаемых данных.

Оптический поток

Оптический поток (OF) помогает определить относительную скорость точек в пикселях в последовательности изображений. Как и разница в изображениях, это старая концепция, используемая для сегментации. Первоначально основным недостатком OF было отсутствие устойчивости к шуму и высокие вычислительные затраты, но благодаря недавним методам сопоставления ключевых точек и аппаратным реализациям эти ограничения уменьшились. Для повышения устойчивости к окклюзии и временной остановке OF обычно используется с другие статистические методы или методы определения различия изображений. Для сложных сценариев, особенно когда сама камера движется, OF обеспечивает основу для оценки фундаментальная матрица где выбросы представляют другие объекты, независимо перемещающиеся в сцене.[3]В качестве альтернативы, оптический поток, основанный на линейных сегментах, а не на точечных объектах, также можно использовать для сегментации нескольких движений твердого тела.[10]

Вейвлет

Изображение состоит из разных частотных составляющих.[11] Края, углы и плоские области могут быть представлены с помощью разных частот. Методы, основанные на вейвлетах, выполняют анализ различных частотных компонентов изображений, а затем изучают каждый компонент с различным разрешением, чтобы они соответствовали его масштабу. Для уменьшения шума обычно используется многомасштабная декомпозиция. Хотя этот метод дает хорошие результаты,[12] он ограничен предположением, что движение объектов происходит только перед камерой. Реализации основанных на вейвлетах методов присутствуют с другими подходами, такими как оптический поток, и применяются в различных масштабах, чтобы уменьшить влияние шума.

Слои

Методы, основанные на слоях, делят изображения на слои с равномерным движением. Этот подход определяет различные слои глубины в изображении и находит, в каком слое находится объект или часть изображения. Такие методы используются в стереозрение где необходимо вычислить расстояние по глубине. Методика на основе первого слоя была предложена в 1993 году.[13] Поскольку люди также используют сегментацию на основе слоев, этот метод является естественным решением проблем окклюзии, но он очень сложен и требует ручной настройки.

Факторизация

Томази и Канаде представили первый метод факторизации. Этот метод отслеживал особенности в последовательности изображений и восстанавливал форму и движение. Этот метод факторизовал матрицу траекторий W, определенную после отслеживания различных объектов в последовательности, на две матрицы: движение и структуру с использованием Разложение по сингулярным значениям.[14] Простота алгоритма является причиной его широкого использования, но они чувствительны к шумам и выбросам. Большинство из этих методов реализованы в предположении жесткого и независимого движения.

Алгоритмы на основе просмотра

Другие алгоритмы обнаружения движения также могут быть классифицированы в зависимости от количества просмотров: в частности, двух- и многовидовые подходы. Подходы, основанные на двух представлениях, обычно основаны на эпиполярная геометрия. Рассмотрим два вида камеры в перспективе твердого тела и найдем соответствия его свойств. Видно, что эти соответствия удовлетворяют либо эпиполярному ограничению для твердого тела в целом, либо омография ограничение для плоского объекта. Планарное движение в последовательности - это движение фона, фасада или земли.[15] Таким образом, это вырожденный случай движения твердого тела вместе с обычными твердотельными объектами, например. легковые автомобили. Следовательно, в последовательности мы ожидаем увидеть более одного типа движения, описываемого несколькими эпиполярными ограничениями и гомографиями. Алгоритмы на основе представлений чувствительны к выбросам, но недавние подходы работают с выбросами с помощью консенсуса случайной выборки (RANSAC )[16] и улучшенный Процесс Дирихле смешанные модели.[3][17] Другие подходы используют минимизацию глобальной размерности для выявления кластеров, соответствующих лежащему в основе подпространству. Эти подходы используют только два кадра для сегментации движения, даже если доступно несколько кадров, поскольку они не могут использовать многокадровую информацию. Подходы на основе многоракурсных изображений используют траекторию характерных точек в отличие от подходов на основе двух представлений.[18] Был предложен ряд подходов, включая конфигурацию основных углов (PAC).[19] и кластеризация разреженных подпространств (SSC)[20] методы. Они хорошо работают в двух или трех случаях движения. Эти алгоритмы также устойчивы к шуму с компромиссом со скоростью, то есть они менее чувствительны к шуму, но медленны в вычислениях. Другие алгоритмы с многовидовым подходом - это кластеризация спектральной кривизны (SCC), метод на основе скрытого низкорангового представления (LatLRR).[21] и подходы, основанные на ICLM.[22] Эти алгоритмы быстрее и точнее, чем на основе двух представлений, но требуют большего количества кадров для поддержания точности.

Проблемы

Сегментация движения - это область исследований, поскольку существует множество проблем, требующих улучшения. Одна из основных проблем - обнаружение функций и поиск соответствий. Существуют надежные алгоритмы обнаружения признаков, но они по-прежнему дают ложные срабатывания, которые могут привести к неожиданным соответствиям. Обнаружение этих соответствий пикселей или признаков - сложная задача. Эти несовпадающие характерные точки от объектов и фона часто приводят к выбросам. Присутствие шума и выбросов на изображении дополнительно влияет на точность оценки структуры по данным движения (SFM). Другая проблема связана с моделями движения или представлениями движения. Это требует, чтобы движение было смоделировано или оценено в данной модели, используемой в алгоритме. Большинство алгоритмов выполняют 2-мерную сегментацию движения, предполагая, что движения в сцене можно смоделировать с помощью 2-мерных аффинных моделей движения. Теоретически это действительно так, потому что 2-D поступательное движение Модель может быть представлена ​​общей моделью аффинного движения. Однако такие приближения при моделировании могут иметь негативные последствия. Трансляционная модель имеет два параметра, а аффинная модель - 6 параметров, поэтому мы оцениваем четыре дополнительных параметра. Более того, данных для оценки модели аффинного движения может быть недостаточно, поэтому оценка параметров может быть ошибочной. Некоторые из других проблем, с которыми приходится сталкиваться:

  • Предварительные знания об объектах или о количестве объектов в сцене необходимы, и они не всегда доступны.
  • Размытие это обычная проблема, когда задействовано движение.
  • Движущиеся объекты могут создавать окклюзии, и вполне возможно, что весь объект может исчезнуть и снова появиться в сцене.
  • Измерение соответствия трехмерных признаков на изображениях может быть зашумленным с точки зрения координат пикселей.[требуется разъяснение ]

Были предложены надежные алгоритмы для устранения выбросов и реализации с большей точностью. Метод факторизации Томаси и Канаде - один из упомянутых выше методов факторизации.

Приложения

Сегментация движения имеет множество важных приложений.[1] Он используется для сжатия видео. Сегментация позволяет устранить избыточность, связанную с повторением одних и тех же визуальных паттернов в последовательных изображениях. Его также можно использовать для задач описания видео, таких как ведение журнала, аннотации и индексация. Используя методы автоматического извлечения объектов, можно разделить видеоконтент с информацией об объектах. Таким образом концепция может быть использована поисковыми системами и видеотеками. Некоторые конкретные приложения включают:

  • Видеонаблюдение в приложениях безопасности
  • Анализ спортивной сцены
  • Приложения для обеспечения безопасности дорожного движения в интеллектуальных транспортных средствах
  • Индексирование видео
  • Мониторинг трафика
  • Распознавание объекта

внешняя ссылка

  • Лаборатория зрения охватывает GPCA, RANSAC (RANdom SAmple Consensus) и сходство локального подпространства (LSA), JCAS (совместную категоризацию и сегментацию), кластеризацию подпространств низкого ранга (LRSC) и теорию разреженного представления. Ссылка на несколько реализаций с использованием Matlab от Vision Lab в Университете Джонса Хопкинса

Рекомендации

  1. ^ а б Перера, Самунда. «Сегментация движения жесткого тела с помощью камеры RGB-D» (PDF).
  2. ^ Запелла, Лука; Льядо, Ксавьер; Сальви, Хоаким (2008). Сегментация движения: обзор. Материалы конференции 2008 г. по исследованиям и разработкам в области искусственного интеллекта: материалы 11-й Международной конференции Каталонской ассоциации искусственного интеллекта, стр. 398-407. С. 398–407. ISBN  9781586039257.
  3. ^ а б c Бьюли, Алекс; Гизилини, Витор; Рамос, Фабио; Апкрофт, Бен (2014). «Самоконтролируемая многоэкземплярная сегментация динамических объектов в режиме онлайн» (PDF). 2014 IEEE Международная конференция по робототехнике и автоматизации (ICRA). С. 1296–1303. Дои:10.1109 / ICRA.2014.6907020. ISBN  978-1-4799-3685-4.
  4. ^ Чен, Чен-Юань; Линь, Дженг-Вэнь; Ли, Ван-И; Чен, Ченг-Ву (2010). «Нечеткое управление океанической структурой: пример системы TLP с временной задержкой». Журнал вибрации и контроля.
  5. ^ Кавалларо, Андреа; Штайгер, Оливье; Эбрахими, Турадж (4 апреля 2005 г.). «Отслеживание видеообъектов на загроможденном фоне» (PDF). Транзакции IEEE по схемам и системам для видеотехнологий. 15 (4): 575–584. CiteSeerX  10.1.1.464.7218. Дои:10.1109 / tcsvt.2005.844447.
  6. ^ Ли, Ренджи; Ю, Сонгю; Ян, Сяокан (август 2007 г.). «Эффективная пространственно-временная сегментация для извлечения движущихся объектов в видеопоследовательностях». IEEE Transactions on Consumer Electronics. 53 (3): 1161–1167. CiteSeerX  10.1.1.227.6442. Дои:10.1109 / tce.2007.4341600.
  7. ^ Шэнь, Хуаньфэн; Чжан, Лянпэй; Хуанг, Бо; Ли, Пинсян (февраль 2007 г.). «Картографический подход для совместной оценки движения, сегментации и сверхвысокого разрешения» (PDF). IEEE Transactions по обработке изображений. 16 (2): 479–490. Bibcode:2007ITIP ... 16..479S. CiteSeerX  10.1.1.692.4884. Дои:10.1109 / tip.2006.888334. PMID  17269640.
  8. ^ Rathi, Y .; Vaswani, N .; Tannenbaum, A .; Еззи, А. (2005). «Фильтрация частиц для геометрических активных контуров с приложением для отслеживания движущихся и деформирующихся объектов» (PDF). Конференция компьютерного общества IEEE 2005 года по компьютерному зрению и распознаванию образов (CVPR'05). 2. С. 2–9. CiteSeerX  10.1.1.550.156. Дои:10.1109 / CVPR.2005.271. ISBN  978-0-7695-2372-9.
  9. ^ Лю, Гуанкан; Линь, Чжоучэн; Ю, Йонг (2010). «Надежная сегментация подпространств с помощью представления низкого ранга» (PDF). Материалы 27-й Международной конференции по машинному обучению (ICML-10). Архивировано из оригинал (PDF) 14 июля 2010 г.
  10. ^ Чжан, Цзин; Ши, Фаньхуай; Ван, Цзяньхуа; Лю, Юнькай (2007). Сегментация трехмерного движения из прямолинейного оптического потока. Springer Berlin Heidelberg. С. 85–94. Дои:10.1007/978-3-540-73417-8_15. ISBN  978-3-540-73417-8.
  11. ^ Гонсалес (1993). Цифровая обработка изображений. Издательская компания Уэсли. ISBN  9780201600780.
  12. ^ Крюгер, Фолькер; Ферис, Роджерио С. (2001). "Метод подпространства вейвлетов для отслеживания лица в реальном времени". Распознавание образов. Конспект лекций по информатике. 2191. С. 186–193. CiteSeerX  10.1.1.18.2433. Дои:10.1007/3-540-45404-7_25. ISBN  978-3-540-42596-0.
  13. ^ Wang, J.Y.A .; Адельсон, Э. (1993). «Многослойное представление для анализа движения». Труды конференции IEEE по компьютерному зрению и распознаванию образов. С. 361–366. Дои:10.1109 / CVPR.1993.341105. ISBN  978-0-8186-3880-0.
  14. ^ ТОМАСИ, КАРЛО; КАНАДЕ, ТАКЕО (1992). «Форма и движение из потоков изображений при орфографии: метод факторизации» (PDF). Международный журнал компьютерного зрения. 9 (2): 137–154. CiteSeerX  10.1.1.131.9807. Дои:10.1007 / bf00129684.
  15. ^ Рао, Шанкар Р.; Ян, Аллен Y; Састры, С. Шанка (январь 2010 г.). «Надежная алгебраическая сегментация смешанных движений твердого тела и плоских движений с двух точек зрения» (PDF). Int J Comput Vis. 88 (3): 425–446. Дои:10.1007 / s11263-009-0314-1.
  16. ^ Fischler, Martin A .; Боллес, Роберт С. (июнь 1981 г.). «Консенсус случайной выборки: парадигма для подгонки модели с приложениями для анализа изображений и автоматизированной картографии». Коммуникации ACM. 24 (6): 381–395. Дои:10.1145/358669.358692.
  17. ^ Чен, Чу-Сун; Цзянь, Юн-Дянь (16 января 2010 г.). «Сегментация движения с двумя ракурсами с выбором модели и удалением выбросов с помощью моделей смеси процессов Дирихле, расширенных RANSAC» (PDF). Цитировать журнал требует | журнал = (помощь)
  18. ^ Юнг, Хичоль; Джу, Чону; Ким, Джунмо. «Жесткая сегментация движения с использованием случайного голосования» (PDF). Цитировать журнал требует | журнал = (помощь)
  19. ^ Zappella, L .; Provenzi, E .; Lladó, X .; Салви, Дж. (2011). Алгоритм адаптивной сегментации движения на основе конфигурации главных углов, компьютерное зрение - ACCV 2010. Springer Berlin Heidelberg. С. 15–26. ISBN  978-3-642-19318-7.
  20. ^ Эльхамифар, Эхсан; Видаль, Рене (2009). «Кластеризация разреженных подпространств». 2009 Конференция IEEE по компьютерному зрению и распознаванию образов. С. 2790–2797. CiteSeerX  10.1.1.217.953. Дои:10.1109 / CVPR.2009.5206547. ISBN  978-1-4244-3992-8.
  21. ^ Лю, Гуанкан; Ян, Шуйчэн (ноябрь 2011 г.). Скрытое представление низкого ранга для сегментации подпространств и выделения признаков (PDF). Компьютерное зрение (ICCV). С. 1615–1622. Дои:10.1109 / ICCV.2011.6126422. ISBN  978-1-4577-1102-2.
  22. ^ Флорес-Мангас; Джепсон (июнь 2013 г.). Сегментация быстрого жесткого движения с помощью поэтапно-сложных локальных моделей (PDF). Компьютерное зрение и распознавание образов (CVPR). С. 2259–2266. CiteSeerX  10.1.1.692.7518. Дои:10.1109 / CVPR.2013.293. ISBN  978-0-7695-4989-7.