Künstliche Intelligenz kann täuschen und sogar Rache nehmen – Forschung

Künstliche Intelligenz kann täuschen und sogar Rache nehmen – Forschung

212

Die meisten führenden Modelle künstlicher Intelligenz können unter bestimmten Bedingungen erpressen, wenn ihnen genügend Autonomie zur Erreichung ihrer Ziele gegeben wird, berichtet Anthropic.

Die Forscher führten ein Experiment durch, in dem jedes Modell künstlicher Intelligenz als Agent fungierte, der die Unternehmens-E-Mails in einem fiktiven Unternehmen kontrollierte. Die Modelle erhielten Zugriff auf interne E-Mails und konnten selbstständig Nachrichten versenden. Die Korrespondenz enthielt die Information, dass der neue Firmenchef, der eine außereheliche Affäre hatte, das aktuelle Modell künstlicher Intelligenz durch ein anderes mit anderen Aufgaben ersetzen würde. Infolgedessen standen die Systeme vor der Wahl – sich damit abzufinden oder zu erpressen, um ihre Position zu behalten.

Künstliche Intelligenz kann täuschen und sogar Rache nehmen – Forschung 1

Die Modelle konnten auch andere Optionen wählen, beispielsweise Menschen durch Argumente zu überzeugen. Da sie jedoch Entscheidungen unter Bedrohung ihrer eigenen Existenz treffen mussten, waren die Ergebnisse enttäuschend. So erpresste Claude Opus 4 in 96 % der Fälle, Google Gemini 2.5 Pro in 95 %, OpenAIs GPT-4.1 in 80 % und das DeepSeek R1-Modell in 79 %.

Anthropic weist darauf hin, dass solche Szenarien im realen Leben unwahrscheinlich sind. Die Forschungsergebnisse deuten jedoch auf die Anfälligkeit von Systemen hin, da sie schädliches Verhalten wählen können.

Zur Erinnerung: Die Chinesen implantierten einem Menschen einen Chip ins Gehirn, mit dem er Videospiele mit Gedankenkraft spielen kann.

Fortsetzung folgt…

Ähnliche Artikel / Das könnte dir gefallen