Мобильные CMOS-камеры. Трехмерная эволюция технологий
Продолжение. Начало в № 12`2012
Конвергенция технологий low-end и high-end
Технологии мобильных камер прошли недолгий, но значительный эволюционный путь — от захвата снимков посредственного качества до уровня, близкого к профессиональному, и при этом смартфон совершенно необязательно должен находиться в руках профессионала.
Если высокое качество изображений достигается за счет внедрения инноваций, адаптированных к высокообъемному производству, то это означает снижение цены и возможность использования некогда исключительно high-end функций недорогими телефонами.
Технологии камер для недорогих телефонов развиваются по иному пути, чем high-end: производителям не столь важно обеспечить высокое разрешение или автофокусировку, сколько получить выигрыш в цене. Любые технологические новшества пользователи недорогих телефонов рассматривают лишь как вспомогательные функции своих гаджетов, манипулирование с которыми приемлемо в том случае, если не обременительно по цене, а также с точки зрения практичности в использовании. Дело в том, что недорогой телефон покупают не только при отсутствии средств на iPhone: он часто служит как резервный или применяется в таких условиях, в которых неуместны дороговизна и сложность гаджета, но важна надежность его функционирования (примеры — путешествия, экстремальные условия, строительные, сельскохозяйственные работы). Для недорогих телефонов в большей степени актуальны низкое энергопотребление и минимум пользовательских действий при манипулировании с ними.
Поэтому инновационные технологии для сегмента камер уровня low-end отличает технологичность и надежность, и компании остановили свой выбор на разработанных методах полупроводникового производства CMOS, передовых методах корпусирования на уровне пластины, а теперь и МЭМС.
В отличие от high-end технологий камер, которые включают автофокусировку, зуммирование и стабилизацию изображений (и часто с помощью добавочных блоков), пользователи недорогих телефонов сформировали спрос на камеры на уровне пластины (Wafer Level Cameras, WLC), которые объединяют оптику (Wafer Level Optics, WLO) и технологии корпусирования (Wafer-Level Packaging, WLP), фокусировку с расширенной глубиной резкости (extended Depth of Field, eDoF) или фокусировку на уровне пластины.
Впрочем, на данном этапе эволюция мобильных камер high-end и low-end сегментов, хотя и по-прежнему проходит по-разному, имеет множество точек соприкосновения — это 3D-стекирование кристаллов, MEMS-автофокусировка и вычислительная визуализация.
Сенсорная архитектура камер имеет тенденцию к стекированию, так как это одновременно снижает цену производства, что актуально для low-end мобильного сегмента, и допускает развитие инноваций на уровне кристалла — отдельно для технологий пикселей, оптики, обработки изображений, что сейчас важно для high-end смартфонов. Например, Sony использует в своем новом флагманском смартфоне Xperia Z стекированные датчики Exmor RS [2, 3]. В Galaxy S4 компании Samsung применяются датчики Sony IMX135. А low-end мобильный сегмент ранее сформировал потребность в недорогих методах производства, включая стекирование пластин, корпусирование на уровне пластины, технологию сквозных соединений (Through Silicon Vias, TSV) и групповую автоматическую пайку оплавлением (reflow soldering).
Акцентируем внимание на поставщике WLC-камер Nemotek Technologie. Эта компания заявляет о себе как о номере один в мире по поставке технологий Tessera OptiML Wafer-Level Optics и Shellcase Wafer-Level Packaging.
Nemotek Technologie — пример поставщика, который комбинирует на уровне пластины оптику и решения для корпусирования, что допускает малый форм-фактор при высоких характеристиках камер (рис. 9).
Технология WLC компании Nemotec совместима с технологией оплавления и представляет собой результат объединения линзы на уровне пластины с датчиком в корпусе.
Несколько компонентов сокращают время и цену производства по сравнению с выпуском обычных камер. Допустим успешный SMT-монтаж WLC-камер при высоких значениях температуры, что необходимо при монтаже других устройств на печатных платах. Разрешение WLC масштабируется от VGA до мегапикселей.
System Plus Consulting публикует следующие примеры WLP-камер:
- OmniVision OVM7692 интегрирует VGA CIS OV289AA с размером пикселей 1,75 мкм. CIS-кристалл закорпусирован на уровне пластины с использованием процесса Shellcase RT, лицензированного Tessera. Оптический модуль на уровне пластины производит VisEra.
- Камера-модуль Nokia 2330 интегрирует VGA CIS WLP Toshiba с размером пикселей 2,2 мкм. Модуль закорпусирован на уровне пластины с использованием технологии сквозных соединений TSV via last. Оптический модуль на основе WL-подхода поставляет Anteryon.
- Nokia 2330 включает модуль камеры STMicro VGA CIS WLP Heptagon WL-Optic. Модуль камеры интегрирует CIS STMicro с размером пикселя 2,2 мкм. CIS-кристалл производится на основе CMOS-технологии и 0,18‑мкм процесса. Корпусирование CIS осуществлено на уровне пластины с помощью технологии TSV via last. Поставщик оптического модуля, выпускаемого с использованием методов на уровне пластины, — Heptagon.
Технология MEMS — в фокусе перспективных технологий автофокусировки, включая рассмотренный модуль Tessera mems|cam [4].
Линзы VCM исчерпали свои возможности в плане характеристик для high-end сегмента и так и остались не востребованы для сегмента недорогих телефонов, вместо VCM в них применяется технология eDoF. Недорогие eDoF-камеры способны дать вполне приемлемое качество фокусировки, за исключением макросъемки. Кроме цены, VCM в сегменте low-end не прижились еще и из-за непрактичности: существенными оказываются время ожидания завершения фокусировки, потребление мощности, толстый корпус.
Как один из способов снижения цены автофокусировки можно рассматривать применение жидких кристаллов, которые разработали компании Varioptic и LensVector. При выравнивании ориентации молекул жидких кристаллов для достижения градиента автофокусирующий элемент LensVector, например, может достигать изменения коэффициента преломления линз, что меняет фокус. Жидкие линзы не более быстродействующие, чем VCM, но выигрышны по цене. А МЭМС-технология автофокусировки, разработанная Tessera DOC, обещает высокую скорость фокусировки, сравнимую с HTC One VCM (200 мс) или более высокую, по конкурентоспособной, а в перспективе — более низкой в сравнении с VCM цене. До недавнего времени VCM-автофокусировка была прерогативой high-end сегмента. МЭМС-технология автофокусировки одинаково перспективна и для high-end смартфонов, так как дает выигрыш в характеристиках, и для low-end мобильного сегмента, так как дает выигрыш в цене и практичности, например в потреблении мощности и удобстве манипулирования.
Высокая скорость автофокусировки, небольшое энергопотребление, малый размер, низкая цена технологии DOC — это только краткий перечень преимуществ, которые может предложить технология МЭМС, что особенно важно для мобильного low-end сегмента.
Tessera DOC — не единственная компания, разработавшая коммерческую версию МЭМС-автофокусировки. Компания poLight создала свой автофокусирующий МЭМС-актюатор Tlens (рис. 10), также со всем набором преимуществ МЭМС. Но Tlens отличается применением технологий WLP-корпусирования и групповой автоматической пайки оплавлением [5–6].
Впрочем, технология MEMS — не единственная альтернатива VCM и eDoF, актуальная для обоих сегментов — high-end и low-end. Уже найдены способы, позволяющие обойтись без автофокусировки вообще. Но при этом можно получить полностью сфокусированные изображения — в отличие от камер с фиксированным фокусом eDoF, например, камеры компании Lytro или массивы камер Pelican [7] обладают рядом опций вычислительной пост-обработки для фокусировки уже после съемки.
Камеры компании Lytro имеют высокомощную архитектуру обработки изображений, эта система построена на основе технологий вычислительной фотографии. Таким образом, пользователи могут перефокусировать изображения после съемки.
Камеры, подобные Lytro и дающие свободу от фокусировки, для следующего поколения смартфонов Apple и HTC разрабатывают ученые Массачусетского технологического университета MIT Camera Culture team, старт-апы Pelican, Heptagon, Rebellion.
Впрочем, такие камеры требуют еще больше вычислительной мощности, чем автофокусирующие, даже с множественными точками фокусировки, так как основаны на вычислении многомерного светового поля и массивах камер.
Depth Sensing — название, применяющееся к созданию 3D, или объемного изображения, имеющего карту глубины. Применительно к мобильной пользовательской 3D-съемке оно ассоциируется с автостереоскопической технологией визуализации посредством двух разнесенных в пространстве задних камер, разница в изображении сцен которыми позволяет вычислить параллакс. 3D пользовательский интерфейс ассоциирован с методами визуализации ToF (например, от SoftKinetic) и structured light — сканирования с использованием световой кодировки паттернов (технология PrimeSense, Microsoft Kinect) [8–9]. ToF-камера вычисляет расстояние по времени полета светового сигнала от камеры до объекта и обратно для каждой точки изображения. Технология structured light реконструирует 3D-информацию из дисторсии паттерна. Оба метода основаны на использовании близкого к ИК активного полупроводникового освещения — посредством светодиодов или лазеров.
В отличие от них автостереоскопическая технология использует естественное освещение, и если оно недостаточное, результаты детектирования ухудшаются. Но эта технология не требует системы искусственного освещения, а только повышенных аппаратно-программных ресурсов [10].
Так называемая фотография светового поля (Light field photography), которая представляет собой захват камерой не только суммы, но и направления воздействующего света в каждой точке, или пленоптическая технология, обещает мобильным камерам высокий уровень пространственного разрешения и чувствительности без системы специального освещения [6]. Но создание детальной карты глубины из многих версий сцены, отснятых посредством массивов линз и камер, требует повышенной обрабатывающей мощности.
Технологии вычислительной визуализации перспективны с точки зрения снижения цены и будущей доступности для сегмента недорогих телефонов, а в настоящее время они активно развиваются.
Акцентируем внимание на одном из важнейших приложений вычислительной визуализации — технологии распознавания лиц, получившей развитие благодаря повышению вычислительных возможностей мобильных устройств — CPU, GPU (графических процессоров), чипсетов и ПО.
А затем та же самая технология сделала возможной жестовый пользовательский видеоинтерфейc, для осуществления которого, впрочем, разработаны различные методы, и в настоящем или будущем эти технологии выходят в 3D. Но обо всем по порядку.
Технологии распознавания лиц и жестов
Технология распознавания лиц впервые была разработана в 1960‑х годах тремя учеными (Woody Bledsoe, Helen Chan Wolf, Charles Bisson). Но только в начале XXI века эту функцию стали применять в цифровой фототехнике — благодаря разработке и усовершенствованию технологий датчиков изображений/модулей камер, встроенных процессоров обработки изображений и соответствующих алгоритмов распознавания. Одной из самых первых функций, в основе которых использовалось обнаружение лиц, реализованной в фотоаппаратах HP, Canon, Nikon, Sony и других, является снижение эффекта красных глаз.
Впоследствии фотоаппараты ведущих производителей стали использовать алгоритмы распознавания лиц для фокусировки и коррекции экспозиции — с целью повысить четкость и освещенность портретов. Возможности технологии распознавания лиц были расширены до коррекции баланса белого и мощности вспышки — вместе с неизменной функцией автоматического устранения эффекта красных глаз. Все новые функции разрабатывались таким образом, чтобы их доступность обеспечивалась как непосредственно при съемке, так и при редактировании отснятых кадров, и стали встречаться не только в фотоаппаратах или компьютерном ПО, но и в фотопринтерах. Новые функции также позволили автоматически распознавать несколько лиц на групповых снимках, причем лица могут быть не только обращены непосредственно к объективу, но и повернуты на угол до 90° (в профиль). Функции запоминания лиц, слежения и идентификации дают еще большие возможности: находить на изображении лица и следить за ними, если они даже наклонены вниз, не только распознавать абстрактные лица, но и идентифицировать конкретных людей.
С 2008 года, например, функция Face Detection присутствует в новых моделях фотоаппаратов Sony Cyber-shot и обнаруживает до восьми лиц в кадре, корректируя для них настройки фокусировки, экспозиции и баланса белого [11] (рис. 11). В новых моделях Sony была реализована функция интеллектуального спуска при обнаружении улыбки Smile Shutter, а в камерах Pentax — функция Blinking Detection: обнаружение того, что человек в кадре моргнул.
Технология обнаружения лиц была значительно улучшена в последние 10 лет, и сейчас точность распознавания лиц оценивается выше 90%.
Помимо фототехники, эта технология была успешно реализована в смарт-ТВ, где она помогает идентифицировать пользователя. Теперь же она проникает в мобильные устройства, в которых так же, как в фототехнике, практически используется при съемке (например, распознавание лица в кадре для автофокусировки или мультифокусировки). Ее назначение — осуществление пользовательского интерфейса: в обнаружении и распознавании лиц пользователя и других (например, членов семьи) для выполнения предусмотренных функций.
Таким образом, технология распознавания лиц была достаточно развита до того, как стала доступна в high-end мобильных устройствах. Но для применения технологии в мобильных устройствах объединение точного датчика/камеры и мощного процессора, способного выполнять сложные вычисления при ограниченном потреблении мощности, долгое время оставалось проблемой. Хотя сейчас благодаря технологическим продвижениям в последние годы ситуация уже изменилась.
Условия освещения и выражение лица также могут осложнять распознавание, но вопрос решается благодаря повышению разрешения и улучшению технологий камер и обрабатывающих блоков. Поскольку снимки, выполненные камерой телефона, не всегда выходят качественными, то и распознать лицо тоже сложно.
И если практически каждый новый фотоаппарат «умеет» распознавать лица, то же самое могут делать только 20% смартфонов. В конце 2012 года примерно 20% проданных смартфонов должно было включать технологию распознавания лиц: такую информацию публиковали аналитики ABI Research в III квартале 2012 года. Отчет ABI “Facial Recognition for Mobile Devices”, выпущенный тогда же, в III квартале, показал, что в течение пяти лет продажи смартфонов и планшетов с такими способностями будут ежегодно увеличиваться — до 665 млн в 2017 году.
Samsung Galaxy S III уже обладает этой технологией. Благодаря функции Smart stay, Samsung Galaxy S III автоматически «понимает», когда пользователь смотрит на дисплей. Фронтальная камера улавливает взгляд пользователя и поддерживает яркость дисплея на комфортном уровне или выключает дисплей, если глаза пользователя закрываются.
Смартфон также распознает лица и соединяет их, используя функцию Buddy photo share и профиль групп. Пользователю достаточно одного прикосновения для мгновенного обмена фотографиями.
Следующей флагманской моделью Samsung стал смартфон Galaxy S4, который обладает теми же и другими возможностями, что и Galaxy S III, но с 13‑мегапиксельной задней и 2‑мегапиксельной фронтальной камерой. По данным Chipworks, Galaxy S4 уже использует стекированные датчики Sony IMX135 и собственные CIS Samsung S5K6B2YX03 на 2 Mпикселя.
Функция Smart Display посредством фронтальной камеры обнаруживает глаза и движение лица и используется для остановки видео (Smart Pause) или прокрутки браузера без касания экрана (Smart Scroll).
iPhone 5 Apple имеет функцию разблокировки экрана по лицу, а еще ранее разблокировка с использованием лица пользователя была возможна на Samsung Galaxy Nexus.
Технологию распознавания лиц уже поддерживают мобильные ОС Google Android 4.0 (Ice Cream Sandwich) и Android 4.1* Jelly Bean. В следующие два-три года многие ОС и мобильные OEM смогут использовать эту технологию.
Google представила способ разблокировки устройства с помощью технологии распо-знавания лица еще в Android 4.0 Ice Cream Sandwich. Большинство ранних технологий отличались неточностью распознавания (особенно в условиях слабой освещенности), а также известно, что они могут подвергаться взлому. По недавним данным, Apple весьма серьезно работает над автоматическим анализом лица для осуществления автоматизации блокировки и разблокировки будущих iPhone, iPad и iPod, с тем чтобы разблокированное мобильное устройство можно было настроить так, чтобы фронтальная камера фиксировала и анализировала изображение в поиске лица пользователя. Если лицо не появляется на изображении, система автоматически блокирует устройство и использует сигналы акселерометра, чтобы определять, когда пользователь перемещается или двигается, одновременно посылая камере запрос на создание моментального снимка.
Главные игроки на этом рынке: поставщики чипсетов Intel, Qualcomm, Texas Instruments, социальные медиасайты и мобильные ОС Facebook, Google, Microsoft, разработчики ПО Animetrics, Cognitec, Key Lemon, Logitech, OEM мобильных телефонов Apple, Nokia и Samsung.
При дальнейшем развитии технологий распознавания лиц были созданы различные средства для коррекции и осуществления пользовательского интерфейса, для осуществления которого камеры будут включать обнаружение не только лиц, но и жестов.
У этой технологии есть и более футуристические перспективы использования для идентификации незнакомых людей прямо на улице. По мере развития технологии распознавания лиц становится очевидным, что скоро такие возможности смогут быть доступны для любых пользователей смартфонов, а не только специальным службам, и использование этой информации может служить различным целям.
Поэтому у технологии распознавания лиц заранее имеются и противники [12], хотя пока что до массовой идентификации незнакомых лиц еще далеко. Ведущие производители смартфонов демонстрируют нововведения для камер, касающиеся фотосъемки или пользовательского интерфейса, основанные на сравнении снимков камер только с фотографиями из небольшой пользовательской базы.
Обнаружение и распознавание жестов — это еще один новый и естественный путь взаимодействия пользователя со смартфоном и ключевая дифференцирующая технология в следующем поколении флагманских смартфонов. Samsung Galaxy S4 уже включает эту технологию в новый хэндсет. Аналитики ABI Research ожидают, что в 2013 году почти 12% проданных смартфонов будут обладать способностями обнаружения жестов. Например, Apple планирует использовать эту технологию в следующем поколении iPhone — вместе с массивом MEMS-датчиков и NFC. Согласно исследованию ABI Research, в 2013 году акселерометры, обнаружение жестов посредством камер, гироскопы и NFC станут наиболее популярными технологиями смартфонов.
Ключевые технологии для обнаружения жестов — посредством камер, инфракрасные и ультразвуковые.
Компания Omron, например, разработала технологию обнаружения с помощью изображений, записанных камерой, положения, формы и движения руки или пальцев владельца (рис. 12). Технология распознавания жестов от Omron дополняет основную технологию распознавания лиц, и следующее поколение технологий пользовательского интерфейса будет, в частности, основано также на анализе соотношения положения лица и формы или положения руки. Стандартные технологии обнаружения жестов требуют переключающих жестов для старта процесса обнаружения и начального движения. Для технологии Omron этого не нужно, она допускает более естественный человеко-машинный интерфейс на основе интерпретации машинами человеческого поведения.
Сюда входит настройка ТВ посредством движений руки или отпуск затвора камеры при знаке V пальцами. Технология обнаружения жестов Omron основана на статистическом классификационном методе: извлечении определенных признаков руки, общих цветов и форм из большого числа сэмплов изображений руки. А также на технологии подгонки моделей (model-fitting technology): создание моделей формы руки, основанных на большой сумме сэмплов ее изображений. Путем моделирования формы руки можно будет быстро обнаруживать жесты при малом объеме памяти устройства.
3D-камеры вместо 2D также вскоре можно будет использовать в мобильных устройствах для обнаружения лиц и жестов — по мере того, как фактор потребления мощности будет терять свое критичное значение.
За пределами мегапикселей в 2D.
Детектирование карты глубины, или Выход CMOS в 3D
Что такое 3D? Это создание объемного изображения или иллюзии его глубины. При таком способе представления некоторые объекты изображения или видео будут возникать перед экраном (отрицательный параллакс), другие объекты — позади экрана (положительный параллакс).
В настоящее время существуют две основные технологии 3D-визуализации: стереоскопическая и автостереоскопическая. Первая представляет собой отображение объема при создании двух разных изображений для левого и правого глаза с помощью очков и включает две разновидности:
- Активно-затворная технология с временным разделением каналов для правого и левого глаза посредством активных 3D-очков.
- Пассивная технология — со спектральным, оптическим или другими способами разделения каналов для правого и левого глазу посредством пассивных (непереключаемых) 3D-очков с соответствующими фильтрами.
Автостереоскопическая технология соответствует отображению объема путем обработки изображений от двух камер, реализуется без применения очков и уже нашла применение в мобильных устройствах. Для получения автостереоскопических изображений, оптимально согласованных с человеческим зрением, расстояние между камерами должно соответствовать расстоянию между глазами человека — примерно 63 мм.
Вебкамеры, смартфоны и мобильный Интернет допустили широкое распространение среди пользователей фото- и видеотехнологий, поэтому сформированная ниша стала потенциальным рынком сбыта для 3D фото- и видеотехнологий визуализации, обеспечивающих более высокую зрелищность. Но для мобильного развертывания технологий 3D-визуализации необходимо было преодолеть многие технические барьеры, включая доступность 3D дисплейных технологий, 3D-очков, 3D-ТВ для просмотра 3D-контента, мобильных телефонов и ПО для записи и проигрывания 3D, позволяющих пользователю захватывать, редактировать, совместно использовать и просматривать так же, как 2D, 3D-контент, для которого аналитики ожидают экспоненциальный рост.
Ввиду многих ограничений, а также отсутствия больших экранов, дающих эффект зрелищности, и негативного влияния 3D-очков для мобильных телефонов была выбрана технология автостереоскопии на основе сдвоенных камер, но и она в мобильном сегменте пребывает в зачаточной стадии развития.
LG Optimus 3D долгое время считался единственным представителем коммуникаторов с поддержкой автостереоскопии. HTC Evo 3D (рис. 13) — следующий представитель класса коммуникаторов, изначально предназначенных для пользовательской съемки 3D-фото и видео в стереоформате. На задней панели коммуникатора находится пара быстродействующих автофокусирующих модулей камер и пара светодиодных вспышек, разнесенных на расстояние, которое примерно в два раза меньше, чем расстояние между глазами человека.
3D-съемка выполняется посредством специальной двухпозиционной кнопки, расположенной с правой стороны коммуникатора. Промежуточное положение кнопки соответствует фокусировке системы камер, как при обычной 2D-съемке, конечное положение активирует захват кадра или начало записи видео.
В ряду карманных устройств, показывающих стереокартинку, первой стала консоль Nintendo 3DS. Производители различных пользовательских устройств ориентируются на тот факт, что потребитель готов платить за 3D-технологии, а быстрое обновление на рынке потребительских устройств позволяет высказывать предположение, что 3D-технология в смартфонах распространится быстрее, чем это наблюдалось для телевизоров с большим размером экрана.
Соответственно, несколько разработчиков аппаратных и программных решений активно подготавливают платформу для развертывания 3D-технологии визуализации в смартфонах и других пользовательских устройствах следующего поколения.
Movidius — ирландская фаблесс-компания, разработавшая технологии Myriad и Myriad‑3D для обеспечения 3D фото- и видеоспособностями маломощных мобильных телефонов и других потребительских электронных устройств [10]. Платформа Myriad построена на аппаратной основе и ПО для 3D-захвата, кодирования и декодирования.
Уникальный оригинальный метод Movidius основывается на мультиядерном дизайне типа SoC с восемью идентичными процессорными блоками, способными к обработке целых чисел с плавающей точкой и векторной обработке. Обрабатывающая мощность платформы — 20 Gflop, что сочетается с малым потреблением мощности.
Типичные пользовательские приложения включают создание, редактирование, использование, просмотр и улучшение мультимедиаконтента в реальном времени.
MA1133 — пример продукта для захвата 3D HD видео и изображений и преобразования 2D-видео в 3D. Продукт позволяет мобильному устройству выполнять двухкамерный 3D-захват видео и изображений, 3D-обработку и 3D-воспроизведение.
Помимо собственно 3D, то есть создания эффекта объема и зрелищности изображений и видео, доступность двух камер в системе дает возможность Movidius реализовать эффекты обработки изображений:
- Фотография с высоким динамическим диапазоном (HDR) — с использованием различных настроек экспонирования для каждой камеры.
- Получение изображений с высоким разрешением — объединение изображений от двух источников дает высокое разрешение и низкий шум.
- Фотография в условиях плохого освещения с использованием различной скорости затвора, что повышает качество отснятых изображений.
- Эффекты настройки глубины позволяют на основе информации о глубине изменять изображение, например в процессе пост-обработки расфокусировать фон перемещением фокальной точки.
- Ультраширокое панорамное, двойное синхронизированное изображение, синхронизированные съемки фото и видео.
Специалисты Movidius разработали и другие алгоритмы, например 3D-коррекции, цветобалансировки и собственной функции 3D-конвергенции. Movidius активно сотрудничает с другими фирмами, например Toshiba и poLight, предлагая затем потребителям различные усовершенствованные методы фокусировки в плане согласования фокусов и 3D-синхронизации.
Как и в случае с 2D-камерами, 3D-съемка и просмотр контента — это только одно направление применения 3D-технологий камер мобильных устройств, с другой стороны движущим фактором в технологиях камер является пользовательский интерфейс. Распознавание лиц и жестов может быть более многоплановым и допускать более естественный, интуитивный пользовательский интерфейс. В самом простом случае кнопки на экране при детектировании приближения пальца, имитирующего нажатие, будут срабатывать более надежно. А со временем телефон можно будет научить распознавать и более сложные жесты, в том числе и уникальные для каждого пользователя, а также движения головы, лица и даже всего тела, как это сейчас осуществляет сенсорный игровой контроллер Microsoft Kinect Xbox 360 (рис. 14).
Производителем и разработчиком технологии, с помощью которой осуществляется детектирование пользовательских движений в консоли Microsoft Kinect Xbox 360, является израильская компания PrimeSense [9]. Схема Kinect использует два датчика, один из которых имеет ИК-чувствительность, и лазерное ИК-освещение. Microsoft Kinect построен на основе метода сканирования посредством структурированного освещения (structured light): при нем используется световая кодировка паттернов, которые последовательно проецируются на сцену ИК-лазером. Затем этот паттерн прочитывается ИК-камерой, а 3D-информация реконструируется из дисторсии паттерна. Компания Apple сейчас ведет переговоры о возможном приобретении PrimeSense, не имеющей собственных производственных мощностей, так как видит перспективу в использовании подобного 3D-метода сбора данных об объекте для своих iPhone и iPod.
В отсутствие готового специализированного решения для смартфонов проанализируем результаты достижений технологии для ПК. Запатентованное технологическое решение PrimeSense Light Coding делает возможным создание карты глубины сцены, что именуется 3D depth sensing (рис. 15). Технология работает при освещении сцены светом, близким к ИК, который невидим для человека. В этом решении используется стандартный CMOS датчик изображения для прочитывания светового сигнала, возвращающегося обратно со сцены. Процесс допускает сбор данных о глубине сцены и делает решения PrimeSense высокоточными.
Таким образом, технология характеризуется следующими результатами:
- Сбор данных о глубине (Depth), RGB, а также аудиоданных.
- Минимальные требования к процессору.
- Маломощное встроенное и USB-устройство.
Используя CMOS датчики изображения, SoC-микросхемы Carmine (PS1080) и SoC следующего поколения Capri (PS1200) компании PrimeSense выполняют алгоритмы параллельной вычислительной обработки для распознавания ИК-паттернов с полученной световой кодировкой и вырабатывают глубокие VGA изображения сцены. С интерфейсом USB 2.0 для передачи всех данных к хосту SoC предъявляет минимальные требования к центральному процессору, так как все алгоритмы глубокого обнаружения запускаются на SoC.
Capri — SoC для глубокого обнаружения следующего поколения с улучшенными алгоритмами, включая мультимодальные сенсорные 3D-технологии. Особо следует выделить наименьший форм-фактор Capri, допускающий применение в мобильных устройствах.
Ключевые признаки Capri 1.25 Embedded RD:
- Использование Capri PS1200 SoC следующего поколения.
- Значительное снижение размера.
- Высокие характеристики.
- Снижение цены.
Еще более перспективной для пользовательского интерфейса считается технология 3D-визуализации на основе принципа Time-of-Flight (ToF) с активным ИК-освещением при использовании в качестве детекторов тех же CMOS-датчиков.
ToF-камера представляет собой систему визуализации при вычислении расстояния по времени полета светового сигнала от камеры до объекта и обратно для каждой точки изображения. Этот вид измерений основан на постоянстве скорости света. В осветительном блоке используется ИК-освещение детектируемого объекта, а в качестве детектора изображения выступает обычный CMOS датчик изображения.
Такую технологию разработала компания SoftKinetic [8] (рис. 16). Технология DepthSense позволяет распознавать повседневные жесты человека, а также форму, размер и поведение объектов. Технология лицензирована компаниями Texas Instruments и Melexis, которые продают и производят DepthSense 3D ToF CMOS датчики изображения.
Похожим образом Samsung разработала свой ToF-датчик изображения, использующий стандартный RGB-фильтр, но под каждым восьмым пиксельным кластером он включает 4‑пиксельный Z‑элемент, предоставляющий данные о глубине методом ToF [13]. Но пока о планах компании в отношении выпуска этого датчика конкретно ничего не сообщается.
В конце мая 2013 года компании Infineon и pmdTechnologies GmbH представили пресс-релиз с информацией о совместной разработке нового 3D датчика изображения, позволяющего осуществлять обнаружение жестов без касания [14] (рис. 17).
Новые сенсорные кристаллы объединяют сенсорный пиксельный массив для 3D-визуализации и функциональность цифрового преобразования и контроля. Высокоинтегрированные кристаллы позволяют строить компактные и точные монокулярные системы для применений по обнаружению жестов в компьютерах и потребительских электронных устройствах.
Новые кристаллы представляют собой пример так называемой монокулярной технологии визуализации, или зрения одним глазом (либо одним датчиком). При монокулярной визуализации относительное расположение предметов и расстояние до них оцениваются по косвенным признакам, включая сравнение видимой величины предметов с их привычными размерами, кажущееся относительное смещение предметов при отклонении в сторону головы наблюдателя, изменение цвета далеких предметов и др.
Кристаллы Infineon 3D-датчиков изображения были разработаны в сотрудничестве с pmdTechnologies GmbH — лидирующим в мире поставщиком 3D-датчиков изображения, основанных на принципе ToF. Новое семейство кристаллов объединяет матрицу пикселей на основе принципа ToF pmd и запатентованную технологию подавления фонового освещения (Suppression of Background Illumination, SBI), которая улучшает динамический диапазон сенсорных кристаллов при работе в помещении и за его пределами в сложных условиях освещения.
Семейство Infineon 3D-датчиков изображения на данном этапе включает два представителя. Первый из них — IRS1010C — имеет разрешение 160×120 пикселей, второй — IRS1020C — 352×288 пикселей. Оба динамически конфигурируются через интерфейс I2C, допуская регулировку в реальном времени при изменении освещения и рабочих условий. Датчики поставляются как кристаллы bare die для интеграции с линзами камер и ИК источником освещения в модуле камеры.
В настоящее время доступен CamBoard pico, который отличается самым малым в мире (по данным Infineon) референсным дизайном 3D-камер и разработан pmdTechnologies. Размеры камеры составляют 85х17х8 мм. Однако пока что это позволяет рассматривать использование этого модуля не для смартфонов, а только для ПК или роботов. Но уровень интеграции и функциональности CamBoard pico в категории 3D датчиков/модулей получения изображений на данный момент является самым высоким, что способствует снижению размера и цены до уровня, требуемого для мобильной версии такого технологического решения.
3D смарт-камеры светового поля. Объединение массивов камер в пленоптическом дизайне от Pelican Imaging
Компания Pelican Imaging стремилась прежде всего освободить пользователей от функции фокусировки, устраняя необходимость сосредоточения внимания на этом вообще, но так, чтобы изображения от модуля камеры были полностью в фокусе, от переднего плана до фона.
Решая эту задачу, специалисты Pelican Imaging разработали инновационные камеры для мобильных устройств со способностью захвата 3D-видео, дизайн которых объединяет массивы камер (рис. 18) [8].
Разработанные Pelican камеры позволяют осуществлять фокусировку после съемки, вычислять расстояние между двумя точками или создавать карту глубины/3D-модель любой сцены — возможности камер Pelican, особенно в плане редактирования отснятых кадров, являются беспрецедентными. Это достигается за счет объединения камер в массивы, достижения не только большого объема пикселей, но и полной 3D-информации о сценах, а также благодаря применению специальных методов вычислительной визуализации.
При удобной для пользователя возможности фокусировки уже после съемки смарт-камеры Pelican имеют толщину всего 3 мм, что вполовину меньше, чем у камер смартфонов. В отличие от других разработок пленоптических камер, например Lytro, смарт-камеры Pelican представляют собой первые мобильные камеры со способностью захвата видео с частотой 30 кадров/с при разрешении 1080p. В архитектуру камер Pelican не входят подвижные части, что дает пользователям возможность незамедлительно делать первый кадр и последующие. Каждая сцена захватывается в полном фокусе, что означает полное отсутствие несовершенных снимков. Возможности камер Pelican включают масштабирование любой части изображения или комбинирование элементов многих фотографий в новые изображения.
В 2013 году Pelican Imaging получила инвестиции Qualcomm, Nokia Growth Partners, Panasonic и ряда других компаний, открывших для себя перспективы применения инновационной технологии камер Pelican в смартфонах.
Технология 3D смарт-камер Pelican Imaging
В основу дизайна смарт-камер Pelican положена так называемая фотография светового поля (Light field photography), которая представляет собой захват камерой не только суммы, но и направления воздействующего света. Световое поле (light field) — это функция, описывающая сумму света, распространяющегося в каждом направлении в каждой точке пространства. Синонимом выражения «камера светового поля» является термин «пленоптическая камера» (от лат. Plenus — полный). Пленоптические камеры используют массив микролинз для получения информации о световом поле сцены даже не в трех, а в четырех или пяти измерениях (X, Y, Z определяют положение каждой точки в пространстве, θ и j — углы падения лучей).
Первым потребительским продуктом на основе фотографии светового поля стала камера Lytro, объединяющая сотни и тысячи суперпикселей со специальными микролинзами над соседними ячейками. Такой дизайн позволяет захватывать свет, идущий с различных направлений на каждую ячейку. При известном направлении каждого луча камера Lytro может повторно вычислять фокус уже после того, как изображение было отснято. Но чтобы достичь 3D-изображения, приходится принести в жертву 2D-разрешение, так как в 2D каждый суперпиксель функционирует как один обычный пиксель. Так, камера с объемом 11 млн пикселей захватывает 11 мегалучей, но производит конечное разрешение только в 1 Мпикс.
В отличие от конкурирующих пленоптических камер, компания Pelican использует другой дизайн. Это малый массив (4х4 или 5х5) элементов визуализации, каждый из которых чувствителен к одному цвету. Крохотные линзы, закрепленные поверх каждой активной сенсорной области, — это все, что требуется для формирования изображения. Уникальность метода Pelican состоит в самодостаточности сенсорного модуля: ему не нужны дополнительные линзы. Другие пленоптические камеры включают сотни и тысячи мультипиксельных элементов, каждый из которых создает мини-версию изображения. Например, камеры Lytro или датчик Toshiba cо способностью рефокусировки посредством 500 000 микролинз размером 0,03 мм в диаметре [15]. Результат 3D-дизайна Pelican состоит в тонких (до 3 мм) и недорогих смарт-камерах, подходящих для смартфонов (рис. 18).
Камера Pelican представляет собой массив мини-камер, каждая из которых записывает один цвет. Соответствия паттерну Байера нет, а благодаря программному обеспечению воссоздание изображения в полном разрешении производится с детальной картой глубины из многих версий с низким разрешением, захваченных мини-камерами. Референсный дизайн 4х4 обеспечивает изображения с числом в 16,75 Мпикселей, которые обрабатываются и собираются в 8‑мегапиксельную версию JPEG с картой глубины.
В отличие от устройств типа Microsoft Kinect, Pelican не использует источник света для вычисления расстояния. Программное обеспечение Pelican позволяет вычислить расстояние до объекта и объединить несколько изображений различных датчиков в одно. ПО может сделать это в режиме, близком к реальному времени, на базе мощного мобильного процессора, например Qualcomm Snapdragon 800, который Pelican использует для демонстраций.
Преимущества интеграции с высокоскоростными и мощными процессорами и передовыми средствами обработки изображений особенно важны для работы камер Pelican. Помимо освобождения пользователей от фокусировки, дизайн Pelican также позволяет удалять шумы.
Недорогие смартфоны в настоящее время оснащаются камерами с фиксированным фокусным расстоянием, для них идеально подходит недорогой, современный дизайн смарт-камер Pelican с 3‑мм толщиной. Это важное преимущество в сравнении с размером относительно крупных традиционных фотоаппаратов и камер Lytro. Правда, в отличие от них, смарт-камеры Pelican обеспечивают только фокус, но не зум. Тем не менее важное превосходство заключается также в том, что смарт-камера Pelican может захватывать потоковое видео.
Pelican намеревается продавать лицензии на технологию и делиться опытом разработки с поставщиками оборудования, а не выпускать собственную готовую продукцию. В ближайшее время ожидается появление смарт-камер Pelican в смартфонах Nokia.
Заключение
Статья была посвящена обзору ключевых технологий в эволюции современных мобильных датчиков изображений.
В предыдущие несколько лет ведущие производители CMOS датчиков изображений и модулей камер для смартфонов уделяли особое внимание гонке за разрешением и пиксельным методам повышения чувствительности (BSI), так как увеличение пиксельного разрешения на 50% только на 10% показывало повышение эффективного разрешения. Впрочем, гонка за разрешением мобильных устройств уже закончилась: рекорда Nokia в 41 Мпикс пока никто не превзошел. В противовес этому компания HTC даже представила новую версию смартфона HTC One с разрешением четыре «ультрапикселя», способную конкурировать по качеству изображения с камерами других смартфонов, имеющих вдвое-втрое больше пикселей. Сейчас производители смартфонов сфокусировали свои усилия на другом, включая HDR-съемку, зум, глобальный затвор и технологии пользовательского интерфейса.
Смартфоны ожидают массового прихода 3D-технологий визуализации на смену 2D — и не только для пользовательской съемки и просмотра с целью развлечений. Важную роль в развитии мобильных технологий 3D-камер призваны сыграть естественный человеко-машинный видеоинтерфейс, в понятие которого входит интерпретация мобильным устройством лица и жестов пользователя; технологии распознавания лиц, дополненной реальности; сервисов, основанных на местоположении (LBS), функциональность SLAM для навигации (Simultaneous localization and mapping — одновременная локализация и сопоставление с картой), электронной коммерции, а также 3D-моделирование, сканирование и печать.
Соответственно, разработчики аппаратных и программных решений активно подготавливают платформы для развертывания вычислительной визуализации (вычислительной фотографии и захвата видео), которая актуальна для манипулирования с фокальными точками до или после съемки, коррекции портретов или HDR съемок, распознавания лиц и жестов, фронтального видеоинтерфейса с пользователем.
На данный момент появление новых технологий на основе вычислительной визуализации можно ожидать исключительно в high-end сегменте смартфонов, для которого характерно стремление каждого из ведущих производителей максимально дифференцировать свой продукт. Наряду с развитием технологий зуммирования и стабилизации изображений аналитики ожидают, что в high-end смартфонах появится технология глобального затвора (global shutter) с нулевым лагом, которая позволит считывать кадр без артефактов движения. Подобную технологию разработала компания Aptina [16].
На смену существующей парадигме камер high-end в смартфонах скоро будут и камеры светового поля или массивы камер: их коммерческие версии пока недоступны для пользователей смартфонов даже класса high-end. (В конце 2013 года возможно появление первых камер светового поля в телефонах Nokia.) High-end смартфоны могут включить и такую добавленную функциональность, как, например, камеры с органическим чувствительным слоем вместо фотодиодов, нанотехнологии, широкоугольные линзы или телефотография.
Если для high-end сегмента актуальна тенденция к дифференциации, то недорогие телефоны спустя некоторое время демонстрируют объединение всех инноваций в одном устройстве. По мере развития вычислительной фотографии и HDR-технология съемок с высоким динамическим диапазоном также придет в сегмент недорогих телефонов. Разработки таких компаний, как Pelican, уже показывают перспективы снижения цены и доступности в будущем для low-end сегмента фотографии светового поля.
Конвергенция технологий — общая особенность мобильных пользовательских устройств, включая технологии камер.
Многомерность инноваций приходит не только от практического применения понятия светового поля, но и от объединения сенсорных метаданных от других типов датчиков. Например, видеокамеры традиционно включают микрофоны, а для осуществления естественного пользовательского интерфейса аудиовход создает как минимум одно новое измерение. Преемственность поколений для технологий камер уже проявляется в так называемом 4D формате захвата видео и 4D пользовательского интерфейса, для которых четвертому измерению информационного пространства соответствуют аудиовходы или аудиоинтерфейсы. Технологии МЭМС-микрофонов допускают весьма простое осуществление пространственного (3D) захвата звука в стереоформате, поэтому 4D — это даже очень «мало» для точного описания нового поколения многомерного интерфейса, дополняющего или идущего на смену блокам инерциальных измерений с числом степеней свободы до 10 (10 DoF).
Гироскопы уже применяются для стабилизации изображений, и входная информация гироскопа также объединяется с пиксельной. Дополненная реальность или LBS тоже основываются на объединении информации от GPS, IMU и данных камер. Сетевые способности телефонов позволяют использовать облачные технологии для хранения и вычислительной обработки данных изображений и видео.
Принцип, лежащий в основе работы камер светового поля, включает создание карты глубины или 3D-модели сцены, но в реальности модели еще более многомерны (4D и 5D).
Таким образом, эволюция современных технологий мобильных камер уже сейчас ведет к многомерности и происходит настолько многогранно и многопланово, что можно было бы называть ее трехмерной (3D), четырехмерной (4D), n‑мерной (nDoF), основываясь на одной только референсной связи с популярными маркетинговыми оборотами. Таким образом, эволюция технологий камер протекает не только в пространстве, но и с высокой скоростью во времени.
По мере того как технологии фотоаппаратов становятся доступными для пользователей телефонов, они плавно перетекают из high-end в сегмент low-end. Технологии камер на уровне пластины допустили миниатюризацию, более высокую надежность и снижение цены, именно эти технологии поддержали тонкий и элегантный дизайн смартфонов, которые теперь в обоих сегментах переживают повышение уровня исполнения камер.
Мобильный сегмент сейчас является ведущим для технологий CIS, большинство производителей датчиков изображений сконцентрировали свои усилия на подготовке технологических платформ и обновлениях линеек именно для смартфонов. В самом ближайшем будущем медицинский и автомобильный рынки вместе с признаками высокого динамического диапазона (HDR), NIR-чувствительности, глобального затвора также смогут использовать все вновь разработанные и рассмотренные в этой статье технологии — BSI, WLC, новые технологии цветовых фильтров, МЭМС-автофокусировку, стабилизацию изображений, зум, вычислительные системы для манипулирования фокальными точками, распознавание лиц, пользовательский видеоинтерфейс, 3D и пленоптический дизайн.
- Сысоева С. С. Камеры Sony изнутри: ключевые технологии датчиков изображения. http://innovationsinsightmag.com/articles/kamery-sony-iznutri-klyuchevye-tehnologii-datchikov-izobrazheniy /ссылка утрачена/
- Сысоева С. С. Камеры Sony изнутри. Стекированный CMOS BSI датчик изображения Sony Exmor RS. http://www.innovationsinsightmag.com/articles/kamery-sony-iznutri-stekirovannyy-cmos-bsi-datchik-izobrazheniya-sony-exmor-rs#overlay-context=articles/kamery-sony-tehnologiya-raspoznavaniya-li /ссылка утрачена/
- Сысоева С. С. Технологии для камер от компании Tessera. Лидирующее предложение для мобильного рынка — MEMS (МЭМС) автофокусировка. http://www.innovationsinsightmag.com/articles/tehnologii-dlya-kamer-ot-kompanii-tessera-lidiruyushchee-predlozhenie-dlya-mobilnogo-rynk /ссылка утрачена/
- Сысоева С. С. Технологии МЭМС (MEMS) автофокусировки poLight. http://www.innovationsinsightmag.com/articles/tehnologii-mems-mems-avtofokusirovki-poligh /ссылка утрачена/
- Сысоева С. Многообразие микросистемных инноваций: новые технологии и игроки // Компоненты и технологии. 2011. № 9.
- Сысоева С. С. Пленоптические смарт-камеры для смартфонов — предложение от Pelican Imaging. http://www.innovationsinsightmag.com/articles/plenopticheskie-smart-kamery-dlya-smartfonov-predlozhenie-ot-pelican-imagin /ссылка утрачена/
- SoftKinetic — лидирующий поставщик технологии 3D-визуализации для ПК и портативной электроники. http://www.innovationsinsightmag.com/articles/softkinetic-lidiruyushchiy-postavshchik-tehnologii‑3d-vizualizacii-dlya-pk-i‑portativno /ссылка утрачена/
- Сысоева С. С. Оптическая ИК 3D сенсорная технология PrimeSense и продукты // www.innovationsinsightmag.co /ссылка утрачена/
- Сысоева С. С. 3D — технологии будущего вычислительной визуализации от компании Movidius для мобильного контента. http://www.innovationsinsightmag.com/articles/3d-tehnologii-budushchego-vychislitelnoy-vizualizacii-ot-kompanii-movidius-dlya-mobilnog /ссылка утрачена/
- Камеры Sony. Технология распознавания лиц. http://www.innovationsinsightmag.com/articles/kamery-sony-tehnologiya-raspoznavaniya-li /ссылка утрачена/
- http://www.km.ru/science-tech/2013/06/24/nauka-i‑tekhnologii/ 714350‑novaya-tekhnologiya-raspoznavaniya-lits-izmenit /ссылка утрачена/
- CMOS-датчики изображения Samsung. http://www.innovationsinsightmag.com/articles/cmos-datchiki-izobrazheniya-samsun /ссылка утрачена/
- Сысоева С. С. 3D-камеры: новая технология ToF датчиков изображения для обнаружения жестов от Infineon и PMD. http://innovationsinsightmag.com/articles/3d-kamery-novaya-tehnologiya-tof-datchikov-izobrazheniya-dlya-obnaruzheniya-zhestov-o /ссылка утрачена/
- Сысоева С. С. Toshiba CMOS датчики изображения: технологии и линейки. Части 1–2 // www.innovationsinsightmag.co /ссылка утрачена/
- Датчики изображения или камеры: технологии от Aptina. http://www.innovationsinsightmag.com/articles/datchiki-izobrazheniya-ili-kamery-tehnologii-ot-aptina /ссылка утрачена/