Компьютеры и нейросети

Палка о двух концах: почему принудительное амплуа снижает эффективность больших языковых моделей

PRISM против стереотипов.

Исследователи из Калифорнийского университета провели масштабное тестирование шести больших языковых моделей (LLM) с использованием 12 различных образов и обнаружили, что назначение ИИ определенной роли, такой как эксперт или наблюдатель за безопасностью, дает противоречивый эффект. Результаты их работы, опубликованной на сервере препринтов arXiv, показывают, что такой подход, известный как «принятие образа», повышает безопасность и профессионализм ответов, но при этом может ухудшать фактическую точность моделей, заставляя их переключаться с режима поиска знаний на режим следования инструкциям.

В ходе исследования ученые выявили, что использование персонажей для больших языковых моделей представляет собой палку о двух концах. С одной стороны, когда модели предписывалось играть роль эксперта в математике, программировании, STEM или специалиста по технике безопасности, их ответы выглядели более профессионально, а вероятность генерации вредоносного контента снижалась.

С другой стороны, в задачах, требующих точного воспроизведения фактов и базовых знаний, добавление такого экспертного образа приводило к снижению точности. По мнению авторов работы, это происходит потому, что модель, принудительно «вживаясь» в роль, смещает приоритет с извлечения знаний на строгое следование инструкциям, заложенным в образе.

Для решения этой проблемы команда исследователей разработала метод обучения под названием PRISM, что расшифровывается как «маршрутизация персонажей через интенциональное самомоделирование» (Persona Routing via Intent-based Self-Modeling). Данный подход учит модели самостоятельно определять, когда использование конкретного образа полезно, а когда вредно.

В процессе обучения PRISM генерирует два варианта ответа на каждый запрос: один от стандартной версии модели, а другой от той же модели, но действующей в заданном образе. Система сравнивает оба результата и принимает решение, какой из них предложить пользователю. Если выясняется, что неперсонализированный ответ точнее, экспертные знания из отвергнутого варианта не удаляются, а сохраняются в легковесном компоненте — адаптере LoRA, что позволяет модели применять усвоенные паттерны экспертных рассуждений в будущем без ущерба для точности.

Испытания PRISM с использованием двенадцати различных образов в таких областях, как медицина и право, подтвердили эффективность метода. Результаты теста MT-Bench, который оценивает способность модели следовать инструкциям и поддерживать доброжелательный тон, показали, что PRISM повысил общий балл работы ИИ на один-два пункта в зависимости от используемой базовой модели.

Исследователи отметили, что разработанный метод улучшает согласование предпочтений пользователя и повышает безопасность в задачах генерации контента, при этом сохраняя высокую точность в дискриминативных задачах.

Таким образом, главным результатом исследования стало доказательство того, что принудительное принятие ИИ определенной роли не всегда оправданно: улучшая стилистику и безопасность ответов, оно может снижать фактическую достоверность. Предложенный метод PRISM позволяет решить эту дилемму, научив модели гибко переключаться между режимами работы, что открывает путь к более эффективному и безопасному использованию больших языковых моделей в профессиональных сценариях.

Научная публикация:

Zizhao Hu et al, Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM, arXiv (2026). DOI: 10.48550/arxiv.2603.18507

Ваша реакция?
Показать полностью
Подписаться
Уведомление о
guest
0 Комментарий
Первые
Последние Популярные
Встроенные отзывы
Посмотреть все комментарии
Back to top button