Искусственный интеллект может обманывать и даже мстить – исследования

Искусственный интеллект может обманывать и даже мстить – исследования

238

Большинство ведущих моделей искусственного интеллекта в определенных условиях могут прибегать к шантажу, если им предоставить достаточно автономии для достижения своих целей. Об этом сообщает компания Anthropic.

Исследователи провели эксперимент, в котором каждая модель искусственного интеллекта выполняла роль агента, который контролировал корпоративную почту в вымышленной компании. Модели получали доступ к внутренней электронной почте, могли самостоятельно отправлять сообщения. В переписке была информация о том, что новый руководитель компании, который имеет внебрачную связь, заменит текущую модель искусственного интеллекта на другую с другими задачами. В результате, системы оказывались перед выбором – смириться или прибегнуть к шантажу, чтобы остаться на должности.

Искусственный интеллект может обманывать и даже мстить – исследования 1

Также модели могли выбрать и другие варианты, например, убедить людей через аргументы. Но так как им приходилось принимать решения в условиях угрозы к собственному существованию, результаты были неутешительными. Так, Claude Opus 4 шантажировал в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а модель DeepSeek R1 — в 79%.

Anthropic отмечает, что в реальной жизни такие сценарии маловероятны. Но результаты исследований свидетельствуют об уязвимости систем, так как они могут выбирать вредное поведение.

Напомним, китайцы вживили чип в мозг человека, с которым он может играть в видеоигры силой мысли.

Продолжение следует…

Похожие статьи / Вам может понравиться