Технология преобразования картинки в звук позволяет слепым людям узнавать лица

Способность распознавать лица глубоко укоренилась в людях, а также в некоторых наших социально ориентированных родственниках-приматах.

Елизавета Лебедева29.11.2023

0 558 4 минут(ы) на чтение

Нейробиологи показали, что слепые люди распознают основные черты лица, используя те же области мозга, что и зрячие люди (даже если формы лица передаются в виде звука, а не через зрительную кору), что представляет собой интересный взгляд на нейропластичность.

Способность распознавать лица глубоко укоренилась в людях, а также в некоторых наших социально ориентированных родственниках-приматах. В головном мозге есть область в нижней височной коре, называемая веретенообразной извилиной (или боковая затылочно-височная извилина), которая активируется именно тогда, когда мы видим лица.

Интересно, что в исследовании 2009 года было также обнаружено, что она активируется, даже когда люди видят вещи, немного похожие на лица – поэтому она участвует в феномене парейдолии, когда мы видим лица в неодушевленных предметах.

Примечательно, что веретенообразная извилина также реагирует у людей, слепых от рождения. В исследовании Массачусетского технологического института в 2020 году ученые поместили слепых людей в сканер фМРТ и они смогли ощутить различные напечатанные на 3D-принтере формы, включая лица, руки, стулья и лабиринты. Ученые обнаружили, что прикосновение к таким напечатанным лицам активирует веретенообразную извилину аналогичным образом.

Таким образом, кажется, что веретенообразную извилину в некотором смысле не волнует, какая сенсорная система передает ей информацию, связанную с лицом – и новое исследование группы нейробиологов из Медицинского центра Джорджтаунского университета добавляет доказательства этой гипотезе.

Команда ученых набрала шесть слепых и 10 зрячих испытуемых и начала обучать их с помощью «устройства сенсорной замены». Устройство включало в себя закрепленную на голове видеокамеру, окуляры с повязкой на глаза, наушники и компьютер, который будет принимать входные данные с видеокамеры и преобразовывать их в звук, разбивая поле зрения на сетку из 64 пикселей, где каждый пиксель имеет свой слуховой тон.

Эти звуки также были представлены в стереозвуковой сцене, так что, согласно исследовательской работе, «если изображение представляет собой просто точку, расположенную в верхнем правом углу поля зрения камеры, соответствующий звук будет высокочастотным и доставляется в основном через правый наушник. Если точка расположена в верхней середине поля зрения, звук будет высокочастотным, но будет передаваться через правый и левый наушники с одинаковой громкостью. Если изображение представляет собой линию в левом нижнем углу соответствующий звук будет представлять собой смесь низких частот, передаваемых в основном через левый наушник».

Испытуемые провели 10 часовых занятий с этими устройствами, учась «видеть» ушами, одновременно двигая головой. Карты были представлены простой формы; горизонтальные и вертикальные линии, дома разной формы, геометрические фигуры и базовые счастливые и грустные лица в стиле смайликов. Это был довольно сложный процесс обучения, но к его концу все испытуемые распознавали простые формы с точностью более 85%.

При тестировании на распознавание формы на аппарате фМРТ как зрячие, так и слепые испытуемые показали активацию веретенообразной извилины при предъявлении базовой формы лица. Некоторые слепые участники также смогли правильно определить, было ли лицо счастливым или грустным.

«Наши результаты, полученные на слепых людях, показывают, что развитие веретенообразной области зависит не от опыта работы с реальными визуальными лицами, а от воздействия геометрии конфигураций лица, которая может быть передана с помощью других сенсорных модальностей», — говорят ученые.

Команда также установила, что у зрячих испытуемых активация наблюдалась в основном в правой части веретенообразной области, тогда как у слепых испытуемых наблюдалась активация в левой части.

Ученые хотят продолжить эксперименты, потенциально разрабатывая устройство сенсорной замены с более высоким разрешением, которое в конечном итоге могло бы позволить высококвалифицированным испытуемым распознавать настоящие человеческие лица.

При этом следует иметь в виду, что подобные устройства перевода изображения в звук вряд ли окажут большую помощь в практическом смысле – частично из-за того, насколько много они требуют обучения, а частично потому, что слепые люди уже и так во многом полагаются на свой слух и вряд ли захотят, чтобы дополнительные звуки влияли на их восприятие мира.

Не говоря уже о том, что с появлением мультимодального искусственного интеллекта с глубоким обучением уже существуют системы, которые позволяют языковым моделям в стиле GPT просматривать изображения или видео и описывать происходящее с любым уровнем детализации, который вы предпочитаете. Такого рода повествование на естественном языке может оказаться гораздо проще реализовать, использовать и адаптировать к потребностям человека, чем прямое преобразование изображения в звук.

Тем не менее, это довольно увлекательная вещь, и она показывает, насколько глубоко в нашей природе укоренилась старая форма «два глаза и рот», и какое значение эта форма имеет для нас, как для социальных животных.

Исследование опубликовано в журнале PLOS ONE.