ChatGPT-4 пока не проходит тест Тьюринга
Один вопрос неустанно преследовал ChatGPT на пути к статусу лидера в области искусственного интеллекта: соответствует ли он тесту Тьюринга по генерации результатов, неотличимых от человеческой реакции?
Исследователи из Калифорнийского университета в Сан-Диего говорят, что он подошел близко, но не совсем.
ChatGPT может быть умным, быстрым и впечатляющим. Он хорошо демонстрирует очевидный интеллект. В разговоре с людьми он звучит по-человечески и даже может проявлять юмор, подражать фразеологии подростков и сдавать экзамены.
Кэмерон Джонс, специализирующийся на языке, семантике и машинном обучении, и Бенджамин Берген, профессор когнитивных наук, опирались на работу Алана Тьюринга, который 70 лет назад разработал процесс, позволяющий определить, способна ли машина достичь уровня интеллекта и разговорной речи, с помощью которого она могла обмануть кого-то, заставив думать, что она человек.
Их отчет под названием «Проходит ли GPT-4 тест Тьюринга?» доступен на сервере препринтов arXiv.
Ученые собрали 650 участников и создали 1400 «игр», в которых между участниками проводились короткие беседы с другим человеком или моделью GPT. Участникам предлагалось определить, с кем они разговаривают.
Исследователи обнаружили, что модели GPT-4 обманули участников в 41% случаев, заставив их поверить, что они говорят с человеком, тогда как модели GPT-3.5 обманули их только в 5–14% случаев. Интересно, что людям удалось убедить участников, что они не машины, только в 63% испытаний.
Исследователи пришли к выводу: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга».
Однако они отметили, что тест Тьюринга по-прежнему сохраняет ценность как мера эффективности машинного диалога.
«Тест имеет постоянную актуальность как основа для измерения свободного социального взаимодействия и обмана, а также для понимания человеческих стратегий адаптации к этим устройствам», — сказали они.
Ученые предупредили, что во многих случаях чат-боты могут общаться достаточно убедительно, чтобы во многих случаях обманывать пользователей.
« Уровень успеха в 41% предполагает, что обман с помощью моделей ИИ уже вполне вероятен, особенно в контекстах, где собеседники-люди менее внимательны к возможности того, что они разговаривают не с человеком», — говорят исследователи. «Модели искусственного интеллекта, которые могут надежно выдавать себя за людей, могли бы иметь широкомасштабные социальные и экономические последствия».
Исследователи заметили, что участники, правильно идентифицировавшие себя, сосредоточились на нескольких факторах.
Модели, которые были слишком формальными или слишком неформальными, вызывали тревогу у участников. Если они были слишком многословными или слишком краткими, если их грамматика или пунктуация были исключительно хорошими или «неубедительно» плохими, их использование становилось ключевым фактором в определении того, имеют ли участники дело с людьми или с машинами.
Участники тестирования также были чувствительны к общим ответам.