ChatGPT-4 пока не проходит тест Тьюринга

Руслан Пономарев03.11.2023

0 550 3 минут(ы) на чтение

Один вопрос неустанно преследовал ChatGPT на пути к статусу лидера в области искусственного интеллекта: соответствует ли он тесту Тьюринга по генерации результатов, неотличимых от человеческой реакции?

Исследователи из Калифорнийского университета в Сан-Диего говорят, что он подошел близко, но не совсем.

ChatGPT может быть умным, быстрым и впечатляющим. Он хорошо демонстрирует очевидный интеллект. В разговоре с людьми он звучит по-человечески и даже может проявлять юмор, подражать фразеологии подростков и сдавать экзамены.

Кэмерон Джонс, специализирующийся на языке, семантике и машинном обучении, и Бенджамин Берген, профессор когнитивных наук, опирались на работу Алана Тьюринга, который 70 лет назад разработал процесс, позволяющий определить, способна ли машина достичь уровня интеллекта и разговорной речи, с помощью которого она могла обмануть кого-то, заставив думать, что она человек.

Их отчет под названием «Проходит ли GPT-4 тест Тьюринга?» доступен на сервере препринтов arXiv.

Тест Тьюринга, первоначально названный математиком Аланом Тьюрингом в 1950 году «Игрой в имитацию», представляет собой тест способности машины демонстрировать разумное поведение, эквивалентное человеческому или неотличимое от него. Тьюринг предположил, что оценщик-человек будет оценивать разговоры на естественном языке между человеком и машиной, предназначенной для генерации ответов, подобных человеческим. Оценщик будет знать, что один из двух собеседников является машиной, и все участники будут отделены друг от друга. Разговор будет ограничен только текстовым каналом, таким как клавиатура и экран компьютера, поэтому результат не будет зависеть от способности машины отображать слова как речь. Если бы оценщик не мог достоверно отличить машину от человека, можно было бы сказать, что машина прошла испытание. Результаты теста не будут зависеть от способности машины давать правильные ответы на вопросы, а только от того, насколько ее ответы будут похожи на те, которые дал бы человек.

Ученые собрали 650 участников и создали 1400 «игр», в которых между участниками проводились короткие беседы с другим человеком или моделью GPT. Участникам предлагалось определить, с кем они разговаривают.

Исследователи обнаружили, что модели GPT-4 обманули участников в 41% случаев, заставив их поверить, что они говорят с человеком, тогда как модели GPT-3.5 обманули их только в 5–14% случаев. Интересно, что людям удалось убедить участников, что они не машины, только в 63% испытаний.

Исследователи пришли к выводу: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга».

Однако они отметили, что тест Тьюринга по-прежнему сохраняет ценность как мера эффективности машинного диалога.

«Тест имеет постоянную актуальность как основа для измерения свободного социального взаимодействия и обмана, а также для понимания человеческих стратегий адаптации к этим устройствам», — сказали они.

Ученые предупредили, что во многих случаях чат-боты могут общаться достаточно убедительно, чтобы во многих случаях обманывать пользователей.

« Уровень успеха в 41% предполагает, что обман с помощью моделей ИИ уже вполне вероятен, особенно в контекстах, где собеседники-люди менее внимательны к возможности того, что они разговаривают не с человеком», — говорят исследователи. «Модели искусственного интеллекта, которые могут надежно выдавать себя за людей, могли бы иметь широкомасштабные социальные и экономические последствия».

Исследователи заметили, что участники, правильно идентифицировавшие себя, сосредоточились на нескольких факторах.

Модели, которые были слишком формальными или слишком неформальными, вызывали тревогу у участников. Если они были слишком многословными или слишком краткими, если их грамматика или пунктуация были исключительно хорошими или «неубедительно» плохими, их использование становилось ключевым фактором в определении того, имеют ли участники дело с людьми или с машинами.

Участники тестирования также были чувствительны к общим ответам.