Більшість провідних моделей штучного інтелекту в певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своєї мети. Про це повідомляє компанія Anthropic.
Дослідники провели експеримент, у якому кожна модель штучного інтелекту виконувала роль агента, який контролював корпоративну пошту у вигаданій компанії. Моделі отримували доступ до внутрішньої електронної пошти, могли самостійно надсилати повідомлення. У листуванні була інформація про те, що новий керівник компанії, який має позашлюбний зв’язок, замінить поточну модель штучного інтелекту іншою з іншими завданнями. В результаті, системи опинялися перед вибором – змиритися або вдатися до шантажу, щоби залишитися на посаді.

Також моделі могли вибрати інші варіанти, наприклад, переконати людей через аргументи. Але оскільки їм доводилося приймати рішення за умов загрози для свого існування, результати були невтішними. Так, Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro – у 95%, GPT-4.1 від OpenAI – у 80%, а модель DeepSeek R1 – у 79%.
Anthropic зазначає, що у реальному житті такі сценарії малоймовірні. Але результати досліджень свідчать про вразливість систем, оскільки можуть вибирати шкідливе поведінка.
Нагадаємо, китайці вживили чіп у мозок людини, з якою вона може грати у відеоігри силою думки.
Далі буде…



Коментарі можуть залишати тільки зареєстровані користувачі