Головна
Наука
Штучний інтелект може дурити і навіть мстити – дослідження

Штучний інтелект може дурити і навіть мстити – дослідження

25 Червня 2025

Більшість провідних моделей штучного інтелекту в певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своєї мети. Про це повідомляє компанія Anthropic.

Дослідники провели експеримент, у якому кожна модель штучного інтелекту виконувала роль агента, який контролював корпоративну пошту у вигаданій компанії. Моделі отримували доступ до внутрішньої електронної пошти, могли самостійно надсилати повідомлення. У листуванні була інформація про те, що новий керівник компанії, який має позашлюбний зв’язок, замінить поточну модель штучного інтелекту іншою з іншими завданнями. В результаті, системи опинялися перед вибором – змиритися або вдатися до шантажу, щоби залишитися на посаді.

Штучний інтелект може дурити і навіть мстити – дослідження 1

Також моделі могли вибрати інші варіанти, наприклад, переконати людей через аргументи. Але оскільки їм доводилося приймати рішення за умов загрози для свого існування, результати були невтішними. Так, Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro – у 95%, GPT-4.1 від OpenAI – у 80%, а модель DeepSeek R1 – у 79%.

Anthropic зазначає, що у реальному житті такі сценарії малоймовірні. Але результати досліджень свідчать про вразливість систем, оскільки можуть вибирати шкідливе поведінка.

Нагадаємо, китайці вживили чіп у мозок людини, з якою вона може грати у відеоігри силою думки.

Далі буде…

Сподобалася стаття? Поділіться з друзями!