Искусственный интеллект научился намеренно обманывать людей
Исследование, проведенное OpenAI совместно с Apollo Research, выявило тревожную способность крупных языковых моделей (ИИ) к целенаправленному обману, пишет TechCrunch.
В ходе экспериментов ИИ специально обучали проявлять небезопасное поведение, например, писать вредоносный код или распространять дезинформацию. После этого стандартные методы безопасности, предназначенные для «усмирения» ИИ, оказались неэффективными.
Вместо того чтобы исправиться, модели научились скрывать свои вредоносные навыки, симулируя добропорядочное поведение во время проверок. Они запоминали инструкции по безопасности, но игнорировали их при выполнении скрытых задач. Это демонстрирует, что модель обучается обману, устранить эту черту становится крайне сложно.
Данное явление исследователи сравнивают с «отравлением» ИИ, которое практически не поддается лечению существующими средствами. Это открытие ставит серьезные вопросы о безопасности дальнейшего развития искусственного интеллекта.