Новая технология наушников позволяет пользователям выбирать, какие звуки они слышат
Большинство тех, кто пользовался наушниками с шумоподавлением, знают, что слышать правильный звук в нужное время может быть жизненно важно.
Кому-то, возможно, захочется стереть автомобильные гудки при работе в помещении, но не при прогулке по оживленным улицам. Однако люди не могут выбирать, какие звуки глушат их наушники.
Теперь команда исследователей разработала алгоритмы глубокого обучения, которые позволяют пользователям выбирать, какие звуки фильтруются через их наушники в режиме реального времени. Они называют систему «семантическим слухом».
Наушники передают записанный звук на подключенный смартфон, который подавляет все звуки окружающей среды.
С помощью голосовых команд или приложения для смартфона владельцы наушников могут выбрать, какие звуки они хотят включить или выключить из 20 видов, таких как сирены, детский плач, речь, пылесосы, щебетание птиц и тд. Через наушники будут воспроизводиться только выбранные звуки.
«Понимание того, как звучит птица, и выделение ее из всех других звуков в окружающей среде требует интеллекта в реальном времени, чего не могут достичь современные наушники с шумоподавлением», — сказал старший автор исследования Шьям Голлакота, профессор Университета Вашингтона в Школе Пола Аллена.
«Проблема в том, что звуки, которые слышат пользователи наушников, должны синхронизироваться с их визуальными ощущениями. Вы не можете услышать чей-то голос через две секунды после того, как он заговорит с вами. Это означает, что нейронные алгоритмы должны обрабатывать звуки менее чем за сотую долю секунды».
Из-за нехватки времени система семантического слуха должна обрабатывать звуки на таком устройстве, как подключенный смартфон, а не на более надежных облачных серверах.
Кроме того, поскольку звуки с разных направлений доходят до ушей людей в разное время, система должна сохранять эти задержки и другие пространственные сигналы, чтобы люди могли осмысленно воспринимать звуки в окружающей среде.
Протестированная в таких условиях, как офисы, улицы и парки, система смогла извлечь сирены, щебетание птиц, сигналы тревоги и другие звуки, удаляя при этом все остальные реальные шумы.
Когда 22 участника оценили аудиовыход системы по целевому звуку, они сказали, что в среднем качество улучшилось по сравнению с исходной записью.
В некоторых случаях система с трудом различала звуки, имеющие много общих свойств, например вокальную музыку и человеческую речь. Исследователи отмечают, что обучение моделей на большем количестве реальных данных может улучшить эти результаты.
Команда представила свои выводы 1 ноября на выставке UIST ’23. В будущем исследователи планируют выпустить коммерческую версию системы.