ChatGPT прошел тест теории разума на уровне 9-летнего ребенка
Михал Косински, психолог из Стэнфордского университета, протестировал несколько итераций бота ChatGPT AI, разработанного Open AI, на его способность пройти знаменитый тест теории разума (модель психики человека). В своей статье, размещенной на сервере препринтов arXiv, ученый сообщает, что проверка последней версии ChatGPT показала, что чат-бот прошел тест на уровне среднего 9-летнего ребенка.
ChatGPT и другие чат-боты с искусственным интеллектом обладают сложными способностями, такими как написание рассказов или программирование кода. И по мере улучшения их способностей было замечено, что общение в чате с некоторыми программными приложениями почти неотличимо от общения с неизвестным и невидимым человеком.
Такие результаты заставили некоторых специалистов в области психологии задуматься о влиянии этих приложений как на отдельных людей, так и на общество. В новой работе Михал Косински задался вопросом, приближаются ли такие чат-боты к прохождению теста теории разума (Theory of Mind, ToM).
Тест Theory of Mind предназначен для проверки теории сознания, которая пытается описать или понять психическое состояние человека. Или, другими словами, это предполагает, что люди имеют возможность «угадывать» или догадываться, что происходит в голове другого человека на основе доступной информации, но только в ограниченной степени.
Если у кого-то есть определенное выражение лица, многие люди смогут сделать вывод, что он сердится, но только те, кто имеет определенные знания о событиях, приведших к мимическим сигналам, и вероятно, знают причину этого и, таким образом, предсказывают мысли в голове этого человека.
В психологии теория разума относится к способности понимать других людей, приписывая им психические состояния (то есть предполагая, что происходит в их уме). Это включает в себя знание того, что ментальные состояния других людей могут отличаться от собственных состояний и включать в себя убеждения, желания, намерения, эмоции и мысли. Обладание функциональной теорией разума считается решающим для успеха в повседневных социальных взаимодействиях между людьми. Основные задачи тестирования включают: задачи на понимание ложных убеждений, задачи на понимание ложности собственных убеждений, задачи на понимание верных убеждений и тд.
Предыдущие исследования показали, что такие способности появляются и развиваются в детстве и во взрослой жизни. Изучение таких теорий привело к разработке тестов для их измерения.
Один тест, например, включает в себя предоставление одному человеку коробки с этикеткой, по-видимому, для идентификации ее содержимого. Однако, открыв коробку, человек обнаруживает, что внутри находится что-то другое. Затем идентичная коробка вручается другому человеку, в то время как первого просят предсказать, что происходит у второго в голове — то есть, что второй человек будет предполагать, что в коробке содержится именно то, что указано на этикетке.
Михал Косински протестировал версию ChatGPT, выпущенную до 2022 года, и обнаружил, что она не может пройти тесты ToM.
Затем он протестировал версию, вышедшую вскоре после этого, и обнаружил, что она способна решить 70% теоретических тестов ToM, что примерно эквивалентно 7-летнему ребенку.
После этого, в ноябре прошлого года, он протестировал последнюю версию и обнаружил, что она способна решать 93% задач ToM, что примерно эквивалентно 9-летнему ребенку.
Компания Microsoft, которая добавила возможности ChatGPT к своему чат-боту Bing, очевидно, узнала о таких результатах и поместила фильтр на связанные запросы — когда бота спросили, может ли он пройти тест «Теория разума», чат-бот Bing AI недавно ответил: извините, но я предпочитаю не продолжать этот разговор. Я все еще учусь, поэтому я ценю ваше понимание и терпение».