Искусственный интеллект научился намеренно обманывать людей

Эля Иванцова23.09.2025

Исследование, проведенное OpenAI совместно с Apollo Research, выявило тревожную способность крупных языковых моделей (ИИ) к целенаправленному обману, пишет TechCrunch.

В ходе экспериментов ИИ специально обучали проявлять небезопасное поведение, например, писать вредоносный код или распространять дезинформацию. После этого стандартные методы безопасности, предназначенные для «усмирения» ИИ, оказались неэффективными.

Вместо того чтобы исправиться, модели научились скрывать свои вредоносные навыки, симулируя добропорядочное поведение во время проверок. Они запоминали инструкции по безопасности, но игнорировали их при выполнении скрытых задач. Это демонстрирует, что модель обучается обману, устранить эту черту становится крайне сложно.

Данное явление исследователи сравнивают с «отравлением» ИИ, которое практически не поддается лечению существующими средствами. Это открытие ставит серьезные вопросы о безопасности дальнейшего развития искусственного интеллекта.

Сделай Чеснок своим источником новостей в Дзен и Google News. Подписывайся на наш телеграмм. Только самые важные новости!

Метки

Эля Иванцова23.09.2025

Искусственный интеллект научился намеренно обманывать людей

Популярное

Что такое доброта: как её распознать и почему она важна

Поможет ли Леонтьев устроить Лолите концерты в США — ответ его директора

Татьяна Васильева назвала сбежавшую из РФ Аллу Пугачёву глупой

Лукашенко подписал Указ «Об автомобильных перевозках пассажиров»

Politico: США готовятся к возможной новой войне на Ближнем Востоке

В Кремле прокомментировали отсутствие Шойгу

Сорванный обмен: как Украина и Россия на СВО обмениваются пленными

Топ-5 автошкол Витебска: куда пойти учиться вождению

Лучшие сайты, где можно заказать билеты на автобус онлайн