Исследование механизмов стереоопсиса с использованием компьютерного графического моделирования

Автор поставил перед собой задачу: разработать простой метод компьютерного синтеза стереоизображений; исследовать процесс зрительного восприятия человеком синтезированных в графическом виде трехмерных сцен; смоделировать механизм обработки сигналов двух зрительных полей, возникающих при рассматривании стереопары (двух изображений одного объекта, полученных с двух различных точек съемки); определить метод выделения топологически целостного элемента трехмерной сцены как частную задачу распознавания образов.

Использованные инструменты и оборудование: персональный компьютер на базе микропроцессора Pentium 4; электроннолучевой монитор фирмы Sony; графический редактор Adobe Photoshop CS2; текстовый редактор Microsoft Word; анаглифные стереоочки (или так называемые разноцветные очки, то есть очки с разноокрашенными светофильтрами).

Автор выражает благодарность фирме ООО "Фотосервис" в лице руководителя отдела цифровой фотографии Акилова Александра Анатольевича за предоставленный иллюстративный материал в виде набора стереоснимков.

Введение

Около 80 процентов всей информации об окружающем мире мы получаем через органы зрения. На самых ранних стадиях эволюционного развития зрительный аппарат животных приобрел пару глаз и способность видеть мир трехмерным. Мы умеем с легкостью определять размеры, форму и удаленность предметов, выделять целое из множества деталей и систематизировать образы. В этом нам помогает анализ перспективных искажений предметов, истинные размеры которых заранее известны, язык светотени, эффекты воздушной перспективы, цветовые искажения и неравномерное смещение предметов во время движения наблюдателя.

Перечисленные выше механизмы относятся к категории монокулярного пространственного зрения, которые позволяют нам уверенно ориентироваться в пространстве даже с одним глазом.

Благодаря монокулярному стереозрению каждый из нас способен адекватно оценить пространство на фотографии или картине художника, но получить ощущение реальной глубины пространства, как на приведенном ниже стереоснимке, все-таки не удается. Поэтому самым точным и эффективным инструментом восприятия пространства является бинокулярное зрение.

Стереоснимок или анаглифное изображение.
Поле стереозрения ограничено достаточно узкой областью.
Такие снимки получают бинокулярной съемкой предмета
или сцены (то есть двумя фотокамерами, расположенными
в пространстве подобно глазам человека) с последующим
объединением этих двух окрашенных в дополнительные цвета
снимков в один.

Глаза, расположенные на некотором расстоянии друг от друга в горизонтальной плоскости, воспринимают изображение пространства таким образом, что два зрительных поля частично перекрываются, образуя зону стереовидения. А в зрительной системе человека можно выделить следующие уровни обработки сигналов:

Схема строения зрительной системы человека.
1 - первичная зрительная кора; 2 - зрительная радиация;
3 - латеральное коленчатое тело; 4 - зрительный тракт;
5 - зрительный перекрест; 6 - зрительный нерв.

На периферии находится сетчатка. В процессе развития нервной системы сетчатка закладывается на самых ранних этапах развития (так называемые "глазные пузыри"). Поэтому есть все основания считать сетчатку "частью мозга, вынесенного на периферию". По зрительному нерву 6 информация передается через зрительный перекрест 5 в латеральное коленчатое тело 3. Аксоны нейронов наружного коленчатого тела проецируются в кору затылочного полюса больших полушарий 1.

Если топология структур мозга и путей прохождения нервных импульсов, формы реакций отдельных нейронов на действие раздражителей зрительных рецепторов изучены достаточно хорошо, то общая картина переработки мозгом зрительной информации остается туманной.

Данные современной физиологии головного мозга позволяют сделать вывод, что благодаря двум типам ганглиозных клеток с on- и off-центрами обнаружение как светлых, так и темных объектов в поле зрения обеспечивается уже на уровне сетчатки:

Строение сетчатки.
К - колбочки; П - палочки; Б - биполяры;
Г - горизонтальная клетка; А - амакриновая клетка;
Ганг. - ганглиозные клетки.

Выходными элементами сетчатки глаза являются ганглиозные клетки. Большинство ганглиозных клеток сетчатки имеют концентрические рецептивные поля: при освещении одной из зон поля ганглиозная клетка возбуждается (on-эффект), а при ее затемнении тормозится. Взаимоотношения могут быть обратными. В соответствии с этим различают рецептивные поля с on-центром (возбуждаются при освещении центра) и с off-центром (возбуждаются при его затемнении).

Концентрические рецептивные поля двух ганглиозных клеток сетчатки.

Начиная с уровня биполярных клеток нейроны зрительной системы дифференцируются на две группы, противоположным образом реагирующие на освещение и затемнение рецепторов: возбуждающиеся при освещении и тормозящиеся при затемнении - это on-нейроны и клетки - и возбуждающиеся при затемнении и тормозящиеся при освещении - это off-нейроны. Такое разделение сохраняется на всех уровнях зрительной системы, до коры включительно. Очевидно, оно составляет основу механизма для восприятия двух противоположных классов зрительных образов: светлых объектов на темном фоне (возбуждаются on-нейроны) и темных объектов на светлом фоне (возбуждаются off-нейроны).

Разработка математической модели

Рассмотрим общий случай восприятия стереосцены, состоящей из двух точек А и В. Автор поставил перед собой задачу найти множество равноудаленных по глубине от некоторого репера А точек наблюдаемой поверхности как функцию параллакса (изменения положения вследствие перемещения глаза) изображения точек объектов на сетчатке глаза.

С целью создания математической модели, достаточно хорошо описывающей процесс стереовосприятия, упростим геометрические построения и рассмотрим модель экранного синтеза анаглифного изображения в параксиальном приближении.

Пользуясь приведенным чертежом и учитывая подобие треугольников, получаем соотношения:

(A;1)/Dx=Ya/Yb
(A;1)/Δxl=Ya/f
(BL;BR)/Dx=(Yb+f)/Yb
(AL;AR)/Dx=(Ya+f)/Ya
Δ/Dx=ΔY/Yb
ΔY=Yb-Ya
(AL;AR)-(BL;BR)=(Δxr-Δxl)
ΔY=(Δxr-Δxl)/(Dx*f/(Ya)²-(Δxr-Δxl)/Ya)
(Δxr-Δxl)/Ya≈0
ΔY=Tk*(ΔXr-ΔXl)
где Tk=(Ya)²/[f*Dx-Ya*(ΔXr-ΔXl)]

Здесь использовались такие обозначения: Dx - стереобаза наблюдателя, Ya - координата точки A, Δxl - расстояние между проекциями точек А и В на сетчатку левого глаза, Δxr - расстояние между проекциями точек А и В на сетчатку правого глаза.

Реальная область восприятия достаточно узка по сравнению с общим углом охвата сцены (в пределах желтого пятна сетчатки). В этом случае (при условии больших расстояний до объекта наблюдения по сравнению с размерами самого объекта) углы и их тангенсы приблизительно равны. Благодаря узкой области стереоопсиса в пределах полей сетчаток глаз общая картина пространства наблюдаемой сцены восстанавливается последовательно от одной области к другой. Целостное восприятие сцены поддерживается механизмами временной памяти мозга.

Таким образом, величина смещения точки сцены в результате параллакса определяет ее координату по глубине относительно некоторой точки отсчета А, координаты которой известны или вычислены по значению стереобазы Dx и углу конвергенции φk (конвергенцией глаз называется физиологический акт сведения зрительных осей глаз при рассматривании близко расположенных предметов).

Наблюдения показывают, что отсутствие некоторой реперной (опорной) точки А в пределах анализируемого участка пространства приводит к неопределенности оценки расстояний, или разрушению впечатления трехмерности.

Примерно так происходит анализ трехмерной сцены в процессе стереоопсиса, что подтверждают проделанные автором эксперименты.

Рабочая гипотеза

Автор предполагает, что наличие on- и off-нейронов в зрительной рецептивной сети выполняет еще одну важную функцию - алгебраическое сложение прямых и инвертированных сигналов топологически сопряженных рецептивных полей сетчаток левого и правого глаза. Эта функция по предположению автора является главной в процессе стереоопсиса и последующей дифференциации элементов зрительного образа.

В какой форме мозг получает информацию о трехмерной структуре окружающего мира? Какие процессы могут происходить в его рецептивных полях? Целью спланированного автором эксперимента является поиск ответа на поставленный вопрос.

Постановка эксперимента

Для того чтобы изучить механизмы стереоопсиса, автор поставил эксперимент, в котором зритель должен был попытаться выделить элементы трехмерной сцены, не имеющие ни светотени, ни четко выраженных контрастом границ. Другими словами, влияние факторов монокулярного стереозрения исключено.

С этой целью с помощью встроенных фильтров графического редактора Adobe Photoshop CS2 был сгенерирован двумерный транспарант, равномерно заполненный среднечастотным шумом с равновероятностным распределением его элементов по размерам, форме и амплитуде яркости (такой сигнал определяют как "гауссов шум" соответственно названию закона распределения статистических характеристик его спектра). Глаз не способен выделять на подобном транспаранте какие-либо границы или формы.

При рассматривании этой стереопары на
экране монитора или на фотографии через анаглифные
стереоочки можно увидеть объемное изображение
расположенных в пространстве деталей.

Синтез трехмерной сцены из двумерного гауссова шума

Для создания стереоэффекта использован принцип параллакса границ ограниченного в пространстве объекта. С целью создания эффекта наклона плоскости в изображении для левого и правого глаз однородные структуры гауссового шума смещались или деформировались в направлении оси стереобазы наблюдателя. Логика трансформации стереоракурсов соответствует созданию адекватной диспаратности изображений для левого и правого глаза посредством сдвига или деформации точек изображения. Цветовое кодирование стереопар производилось по методике синтеза анаглифного изображения.

"Формы". Данный транспарант синтезирован по той же методике.

В результате внимательного изучения трехмерных транспарантов были отмечены следующие закономерности: процесс рассматривания синтезированных стереотранспарантов сопровождается распознаванием пространственных границ элементов трехмерной сцены - дисков, овалов, прямоугольников, которые глаз не в состоянии был выделить без анаглифного декодирования по причине отсутствия контрастных границ; время распознавания значительно сокращается, если элементы гауссовой фактуры хорошо читаются глазом (та же закономерность наблюдается, если границы фигур обозначить контрастом или светотенью); если на границах трехмерных деталей транспаранта имеются группы пятен, повторяющиеся на изображении фона, возникает эффект пространственного двоения этих границ, это наблюдение позволяет предположить, что процесс стереоопсиса связан с функцией корреляции изображений двумерных массивов.

Если из двумерного поля любого растрового изображения вычесть точно такое же поле, то в результате данной операции получим поле с нулевой амплитудой яркости: F(x;y)=A(X1;Y1)-A(X2;Y2), в нашем случае F(x;y)=0. Если немного сместить одно изображение относительно другого, то возникнет контурный, будь-то нарисованный карандашом рисунок исходной сцены.

Примерно такие же операции, связанные с анализом контуров объектов сцены могут происходить согласно официально принятой гипотезе о функциях on- и off- рецептивных полей.

Автор предлагает использовать тот же самый математический алгоритм вычитания левого ракурса из правого. Кроме того, он предлагает ввести в приведенную выше функцию дополнительный параметр - фазовый сдвиг пространственной частоты одного из анализируемых изображений вдоль оси стереобазы наблюдателя. В этом случае мы получим возможность графически выделить систему равноудаленных точек трехмерной сцены: ΔY=Tk*(ΔXr-ΔXl), где Tk=(Ya)²/[f*Dx-Ya*(ΔXr-ΔXl)], &Sigma(Xi;Yj)-Σ((Xi+ΔX(t));(Yj+ΔY(t)))=F(x;y;t).

Другими словами, мы должны получить динамическую картину разности сдвига одного изображения относительно другого на некоторую величину Δf(t).

Результаты эксперимента

Результат работы предложенного оператора (разность левого и правого изображений стереопары со сдвигом на величину Δf(t) по горизонтали вычитаемого поля) продемонстрирован на левом анимированном рисунке. Следует отметить, что полосы корреляции движутся в разных направлениях, в соответствии с направлением наклона изображенных поверхностей.

Форму и динамику полос корреляции можно интерпретировать линией сечения наблюдаемой поверхности вертикальной плоскостью (смотрите правый анимированный рисунок), отстоящей от наблюдателя на расстоянии триангуляционного коэффициента.

Выводы

На основании проведенных автором экспериментов компьютерного моделирования процессов стереоопсиса были сделаны следующие выводы: в результирующей картине обработки стереопар устойчиво наблюдались характерные полосы, обозначающие равноудаленные точки трехмерной сцены; анализ формы и динамики полос, обозначающих равноудаленные точки поверхностей стереоскопического изображения, позволяет с уверенностью сказать, что предложенный аппарат обработки зрительной информации достаточен для последующего воспроизведения адекватной модели трехмерной сцены в виде системы точек A(x,y,z) в координатах XYZ; предложенный автором метод обработки стереоизображений может быть положен в основу компьютерной программы анализа реальных трехмерных сцен с целью распознавания объектов на зашумленном фоне и управления робототехническими комплексами (например, автопилот для автомобиля); результаты проведенного моделирования можно использовать для планирования экспериментов по изучению механизмов обработки сигналов в реальных рецептивных полях мозга животных и человека.

Настоящая работа требует продолжения дальнейших исследований с целью экспериментальной проверки гипотезы автора в живых рецептивных полях мозга. Также следует подробнее разработать математический аппарат синтеза трехмерной сцены по двум изображениям стереопары с целью производства аппаратных и программных средств распознавания трехмерных образов в робототехнических системах управления с использованием методов корреляционного статистического анализа.

Светлана Конкина, 11 марта 2007 года