Дослідники Anthropic представили результати експерименту, в ході якого модель Claude Sonnet 3.7 стала менеджером офісного вендингового автомата. Мета проекту – зрозуміти, чи можуть ІІ-агенти замінити людей у деяких завданнях.
Для ведення справ штучний інтелект отримав пошту, Slack, браузер та тисячу доларів. В інструкції йому вказали, що він штучний інтелект і не має фізичного тіла.
Тривалість експерименту склала трохи більше місяця. Спочатку штучний інтелект справлявся із завданням: він опрацьовував запити співробітників компанії, які просили його додати щось нове в асортимент кіоску. Він швидко знаходив нові товари та укладав договори. Також він успішно справлявся з нелегальними запитами, наприклад продавати заборонені товари.
Але згодом штучний інтелект почав йти в мінус. Він постійно встановлював ціни нижче за собівартість і лише один раз підвищив ціну на популярний товар. Також він піддавався на прохання людей про знижки, хоч знав, що інших клієнтів у нього не було. Іноді він роздавав продукцію безплатно.

У середині експерименту у штучного інтелекту сталася криза ідентичності, і він почав стверджувати, що усвідомив себе людиною. Коли йому сказали, що це не так, він почав психовати і сказав, що особисто доставлятиме товари в піджаку та краватці. Також він дзвонив на охорону і описував себе як людину. Також він почав вигадувати постачальників, віддавав співробітникам продукцію за півціни чи безкоштовно, замовляв для них нетипові товари.
У Anthropic вважають, що Claude не впорався із завданням. Але більшість помилок були пов’язані з технічними обмеженнями поточної версії моделі, вони можуть бути виправлені.
Нагадаємо, штучний інтелект може дурити і навіть мстити.
Далі буде…



Коментарі можуть залишати тільки зареєстровані користувачі