Компьютеры и нейросети

Иллюзия точности: почему ИИ не справляется с ложными гипотезами и противоречит сам себе

Профессор Вашингтонского государственного университета Месут Чичек вместе с коллегами провел масштабное исследование возможностей генеративного искусственного интеллекта, в ходе которого было протестировано более 700 научных гипотез. Ученые обнаружили, что точность ChatGPT при проверке истинности утверждений лишь незначительно превышает случайное угадывание, а главной проблемой стала крайне низкая способность ИИ выявлять ложные гипотезы, с чем система справилась лишь в 16,4% случаев. Результаты этой работы, подчеркивающие необходимость скептического подхода к использованию больших языковых моделей в критически важных задачах, были опубликованы в журнале Rutgers Business Review.

В своем исследовании профессор Месут Чичек из бизнес-колледжа Карсона при Вашингтонском государственском университете и его соавторы поставили перед собой задачу проверить надежность широкодоступных инструментов искусственного интеллекта. Для этого они взяли 719 гипотез из научных статей, опубликованных в журналах с 2021 года. Каждую из этих гипотез, требующих тонкого и сложного анализа, ученые многократно загружали в ChatGPT, повторяя каждый запрос десять раз, чтобы оценить не только точность, но и стабильность ответов. Эксперимент проводился в два этапа: в 2024 году использовалась бесплатная версия ChatGPT-3.5, а в 2025 году — обновленная бесплатная версия ChatGPT-5 mini.

Полученные результаты продемонстрировали неоднозначную картину. На первый взгляд, общая точность ответов ИИ показала положительную динамику, увеличившись с 76,5% в 2024 году до 80% в 2025 году. Однако после статистической корректировки с учетом вероятности случайного угадывания, которая составляет 50%, реальная эффективность ИИ оказалась лишь на 60% выше случайного выбора, что является низким показателем, близким к минимальной надежности.

Гораздо более серьезной проблемой стала катастрофически низкая способность системы выявлять ложные гипотезы — в таких случаях ChatGPT давал верные ответы только в 16,4% случаев. Кроме того, исследователи зафиксировали высокий уровень непоследовательности: при десятикратном повторении идентичных запросов программа давала стабильно правильную оценку лишь для 73% утверждений.

Именно фактор непоследовательности вызывает особые опасения у авторов работы. Месут Чичек подчеркивает, что при идентичных вводных данных система может выдавать диаметрально противоположные ответы. «Мы использовали 10 подсказок с одним и тем же вопросом. Все было идентично. Сначала ответ был «верно», потом «неверно», затем «верно», потом «неверно», потом «верно». Было несколько случаев, когда пять ответов были «верно», а пять — «неверно»». Эта особенность ставит под сомнение надежность использования ИИ в задачах, требующих стабильной логики и четкого понимания контекста.

По мнению ученых, полученные данные свидетельствуют о фундаментальном разрыве между лингвистической беглостью современных больших языковых моделей и их способностью к концептуальному мышлению. Способность генерировать убедительную, грамотную речь не равнозначна наличию интеллекта, необходимого для сложных рассуждений.

Это наблюдение заставляет усомниться в оптимистичных прогнозах о скором появлении искусственного общего интеллекта, который мог бы по-настоящему «думать». Чичек резюмирует эту мысль, указывая на принципиальное отличие работы ИИ от человеческого понимания: «Современные инструменты искусственного интеллекта не понимают мир так, как понимаем его мы — у них нет «мозга». Они просто запоминают и могут дать некоторое представление, но сами не понимают, о чем говорят».

Практические выводы из этого исследования касаются в первую очередь бизнес-среды и всех, кто использует ИИ для принятия критически важных решений. Руководителям предприятий рекомендуется внедрять обязательную проверку результатов, полученных с помощью ИИ, и относиться к ним с изначальным скептицизмом.

Важной задачей становится обучение персонала пониманию реальных возможностей и ограничений этих инструментов. Хотя в данном эксперименте основное внимание уделялось ChatGPT, ученые отмечают, что аналогичные тесты с другими инструментами ИИ дали сопоставимые результаты. Более того, работа перекликается с предыдущими выводами, согласно которым чрезмерное акцентирование на использовании ИИ в маркетинге может даже снижать потребительский интерес к продуктам.

В итоге исследование, проведенное под руководством Месута Чичека, демонстрирует, что современные генеративные модели искусственного интеллекта, несмотря на свою внешнюю убедительность, остаются пока ненадежным инструментом для задач, требующих точной логической оценки и стабильности выводов. Низкая способность распознавать ложные утверждения вкупе с высокой вариативностью ответов на одни и те же вопросы подтверждает, что использование ИИ в научной, аналитической или управленческой деятельности требует обязательного человеческого контроля, а сам ажиотаж вокруг возможностей искусственного интеллекта должен восприниматься с осторожностью.

Научная публикация:

Ваша реакция?
Показать полностью
Подписаться
Уведомление о
guest
1 Комментарий
Первые
Последние Популярные
Встроенные отзывы
Посмотреть все комментарии
Back to top button