Новая настройка для распознавания изображений AI позволяет программе думать по-новому
Кластеры виртуальных нервных клеток определяют пространственные отношения вместо того, чтобы просто полагаться на запоминание
Искусственный интеллект получает лучшую перспективу. Как человек, который может читать чужой почерк, не изучая множество образцов рукописного текста, AI-распознавание изображений следующего поколения может более легко идентифицировать знакомые взгляды в новых ситуациях.
Созданные из нового типа виртуального строительного блока, называемого капсулами, эти программы могут сократить громадный объем данных, необходимых для обучения текущего ИИ, идентифицирующего изображение. И это может повысить такие технологии, как машинные медицинские диагнозы, где, например, изображения могут быть скудными, или отзывчивость самозанятых автомобилей, где вид постоянно меняется. Исследователи с Google представит эту новую версию искусственной нейронной сети на конференции Neural Information Processing Systems в Лонг-Бич, шт. Калифорния, 5 декабря.
Нейронные сети представляют собой сети отдельных виртуальных нервных клеток или нейронов, которые учатся выделять объекты на фотографиях, изучая помеченные примеры изображений. Эти сети в значительной степени классифицируют изображения на основе того, содержат ли они определенные функции. Например, программа, подготовленная по серии выстрелов головы, может сделать вывод, что лицо имеет два глаза, нос и рот. Покажите, что программа имеет лицо в профиле с видимым только одним глазом и, возможно, не распознает фотографию как лицо, объясняет Роланд Мемешевич, компьютерный ученый из Монреальского университета, который не участвовал в работе.
Чтобы преодолеть это ограничение, исследователи могут обучать нейронную сеть миллионам фотографий с разных точек зрения, и программа запоминает все различные способы, которыми может выглядеть лицо. По сравнению с человеческим мозгом, которому не нужно около миллиона примеров, чтобы узнать, как выглядит лицо, эта система дико неэффективна. «Это катастрофа, — говорит Мемешевич. «Капсулы пытаются это исправить».
Вместо сетей отдельных искусственных нейронов эти новые программы имеют сети кластеров нейронов, называемых капсулами. Эти группы нейронов могут предоставить больше информации, чем один нейрон. Каждая капсула предназначена для отслеживания не только того, есть ли определенная функция в изображении, но и свойства этой функции — например, размер, ориентация и положение носа. Это пространственное осознание помогает программе лучше распознавать объекты в ранее невидимых сценариях.
Капсула-содержащая сеть, подготовленная на снимках головы, могла видеть лицо в профиле и выводить — на основе видимости видимого глаза, носа и рта — то, что другой глаз просто затенен, а на изображении изображено лицо. Поскольку сети капсул лучше применяют то, что они знают к новым ситуациям, эти нейронные сети нуждаются в меньших учебных данных для достижения той же производительности, что и их предшественники, говорит Сара Сабур, компьютерный ученый из Google Brain в Торонто.
Сабур и ее коллеги обучили одну капсульную сеть на изображениях рукописных номеров и протестировали ее на фотографиях, где каждый номер был слегка искажен. Сеть капсул распознала искаженные изображения с 79-процентной точностью; типичная нейронная сеть, обучаемая на одном и том же количестве данных, получила только 66 процентов.
В другом эксперименте Sabour и его коллеги обучили аналогичную сеть капсул на десятках тысяч фотографий игрушек, а затем попросили ее распознать игрушки с новых точек зрения. В этой задаче, о которой сообщалось в документе, представленном на Международной конференции по изучению образов в Ванкувере в 2018 году, сеть была неправильной только в 1,4 процента случаев. Обычная нейронная сеть делала почти в два раза больше ошибок.