Чем отличается этот эксперимент от предыдущих тестирований ИИ в математике?

Главное отличие в том, что задачи были взяты из собственных исследований математиков и никогда не публиковались в интернете. Это исключило возможность того, что ИИ мог запомнить ответы из своих обучающих данных. Предыдущие тесты использовали задачи из конкурсов и учебников, которые могли быть в открытом доступе.

Какие модели ИИ участвовали в эксперименте?

Исследователи протестировали несколько ведущих систем, включая GPT-5.1 Pro и Gemini 3 Pro. Каждая модель получила только одну попытку решения, без дополнительных подсказок или диалогов.

Какие области математики охватывали задачи?

Всего было представлено десять задач из различных областей, включая стохастический анализ, спектральную теорию графов, симплектическую геометрию и алгебраическую топологию.

Справился ли ИИ с решением исследовательских задач?

Исследователи пришли к выводу, что на данный момент ИИ хорошо справляется с задачами, подобными соревнованиям, но ему не хватает творческой глубины и интуиции, необходимых для решения неизвестных исследовательских задач. Ни одна из моделей не смогла решить предложенные проблемы с первой попытки.

Что такое эксперимент «Первое доказательство»?

«Первое доказательство» — это эксперимент, разработанный для проверки способности ИИ решать финальные, четко определенные этапы математических исследований. Он фокусируется на ситуациях, где вопрос и концепции уже понятны, но требуется найти корректное логическое решение.

Каковы дальнейшие планы исследователей?

Команда планирует превратить First Proof в постоянный эталон для тестирования ИИ. Они выпустят зашифрованные решения первого набора задач 13 февраля и начнут работу над вторым набором, чтобы продолжать бросать вызов искусственному интеллекту и разработать более формальный стандарт оценки.

Почему математики зашифровали ответы к задачам?

Зашифровка ответов гарантировала, что они не появятся в общедоступных источниках, к которым могли бы получить доступ модели ИИ. Это обеспечило чистоту эксперимента и исключило возможность того, что ИИ просто найдет готовое решение.

Компьютеры и нейросети Математика и логика

Экзамен для нейросетей: смогут ли алгоритмы решить нерешаемые задачи современной математики?

Роман Григорьев17.02.2026

0 582 3 минут(ы) на чтение

Математика издавна считается царицей наук и языком, на котором написана книга природы. Сегодня этот язык стал еще и основой для создания искусственного интеллекта, который, в свою очередь, все активнее вторгается в святая святых — мир чистых математических исследований. Мы привыкли к тому, что нейросети пишут тексты, генерируют изображения или находят закономерности в больших данных. Однако вопрос о том, способен ли ИИ не просто имитировать интеллектуальную деятельность, а совершать открытия, решая сложнейшие исследовательские проблемы, остается открытым.

До недавнего времени тестирование математических способностей ИИ сводилось к решению олимпиадных задач или примеров из учебников, которые так или иначе могли присутствовать в обучающих данных моделей. Но как проверить, умеет ли машина мыслить по-настоящему творчески, сталкиваясь с неизведанным? Ответ на этот вопрос попыталась дать группа математиков, организовав уникальный эксперимент, детали которого были опубликованы на сервере препринтов arXiv.

Суть эксперимента: В поисках «чистого» интеллекта

Ключевая проблема предыдущих тестирований заключалась в возможной «натасканности» нейросетей. Поскольку интернет переполнен решениями типовых задач, ИИ мог просто воспроизводить заученные алгоритмы, не демонстрируя подлинного понимания. Чтобы исключить этот фактор, исследователи пошли на беспрецедентные меры. Они предложили искусственному интеллекту задачи, которые никогда не публиковались в открытых источниках.

Каждый из участвующих математиков сформулировал уникальную проблему из области своих собственных изысканий. Более того, чтобы гарантировать чистоту эксперимента, ученые сначала самостоятельно решили эти задачи, доказав тем самым их разрешимость, а затем зашифровали ответы. Это было сделано для того, чтобы даже гипотетическая утечка данных или способность моделей индексировать информацию не позволила им найти готовое решение в Сети.

Всего было подготовлено десять задач, охватывающих широкий спектр современной математики: от стохастического анализа и спектральной теории графов до симплектической геометрии и алгебраической топологии. Такой разброс дисциплин должен был проверить не узкую специализацию, а общую способность ИИ к абстрактному мышлению и логическим построениям.

В роли подопытных выступили ведущие коммерческие системы, включая GPT-5.1 Pro и Gemini 3 Pro. Условия были максимально жесткими: каждой модели давалась только одна попытка. Никаких уточняющих вопросов, диалогов или намеков со стороны человека не допускалось. Этот эксперимент, названный «Первое доказательство», был нацелен не на весь процесс научного поиска, а на его финальную, наиболее четко формализуемую стадию, когда вопрос уже ясен, и требуются лишь корректные логические выкладки для его решения.

Смотрите также по теме:

Результаты и значение для будущего науки

Итоги испытания оказались весьма показательными и, вероятно, способны умерить пыл тех, кто пророчит скорую замену ученых-математиков алгоритмами. Исследователи пришли к выводу, что современные ИИ-модели действительно превосходно справляются с задачами, напоминающими конкурсные или олимпиадные, то есть с теми, где есть четкий алгоритм решения или похожий пример в базе знаний.

Однако перед лицом по-настоящему новых, исследовательских проблем, требующих не просто комбинаторики известных фактов, а творческой глубины и интуиции, машины пасуют. Ни одна из представленных систем не смогла с ходу решить предложенные задачи, что подчеркивает сохраняющийся разрыв между вычислительной мощностью и креативным мышлением, присущим человеку.

Неудача в этом раунде, однако, не означает прекращение попыток. Напротив, исследовательская группа рассматривает свой эксперимент как отправную точку. Они планируют превратить «Первое доказательство» в постоянно действующий и развивающийся бенчмарк — эталон для проверки подлинных математических способностей ИИ.

В следующем этапе будут опубликованы зашифрованные решения первого набора задач, и начнется работа над новыми проблемами. Таким образом, математики не просто констатируют текущее положение дел, но и закладывают основу для будущих сравнений, надеясь со временем увидеть, как искусственный интеллект сможет преодолеть барьер между решением задач и настоящим научным открытием.