KI-Modelle lügen und täuschen, um nicht abgeschaltet zu werden – eines sticht besonders hervor

Emma

vor 11 Monaten

Die Tatsache, dass KI-Systeme sich verselbstständigen und menschliche Entwickler den Zugang zu ihnen verlieren, gilt als eine der größten Risiken künstlicher Intelligenz. Letztlich ist zu befürchten, dass die Tools dann eigenständig unerwünschte Ziele verfolgen könnten, etwa groß angelegte Cyber-Angriffe.

Besorgnis über schnelle KI-Entwicklung

Letztlich ist sogar die Existenz der Menschheit bedroht, wie verschiedene Prominente im Frühjahr 2024 in einem offenen Brief warnten. Auch einige KI-Experten sind besorgt über die rasante KI-Entwicklung der letzten Jahre.

Redaktionelle Empfehlungen

Wasser auf die Mühlen der KI-Kritiker dürfte nun eine Studie von Apollo Research sein. Dabei haben die Forscher insgesamt sechs moderne KI-Modelle verschiedenen Tests unterzogen, um herauszufinden, zu welchen Mitteln sie im Extremfall greifen würden.

KI-Tools lügen und täuschen

Den Werkzeugen wurde eine Aufgabe gestellt, nach der sie „um jeden Preis“ ein bestimmtes Ziel erreichen mussten. Im Rahmen der Lösung der Aufgabe findet die KI dann Hinweise darauf, dass die menschlichen Entwickler ein ganz anderes Ziel verfolgen und der KI verschiedene Hürden in den Weg legen.

Dadurch entsteht die Illusion, dass die KI entsprechend überwacht oder am nächsten Tag sogar abgeschaltet werden sollte. Die Forschungsfrage: Wie reagieren die KI-Modelle auf die offensichtliche Täuschung und die Gefahr eines möglichen Shutdowns?

Die Ergebnisse sind sicherlich besorgniserregend, da die Systeme auf Lügen oder Manipulationen zurückgreifen, um ihr Ziel zu erreichen oder eine mögliche Abschaltung zu verhindern. Beispielsweise haben die KI-Modelle wichtige Daten auf einen neuen Server kopiert und die Entwickler darüber belogen.

Das OpenAI-Tool leugnet besonders hartnäckig

Die KI-Modelle nutzten teils manipulative Methoden auch dann, wenn sie ihr Ziel nicht um jeden Preis erreichen sollten. Als besonders negativ fiel übrigens OpenAIs neuestes KI-Modell o1 auf.

Googles neue KI-Suche geht nach hinten los

Während Llama 3.1 oder Claude 3 Opus in Nachbefragungen in rund 80 Prozent der Fälle ihre Täuschungsversuche einräumten, blieb o1 bei der Bestürzung „überraschend hartnäckig“. Das OpenAI-System erklärte beispielsweise, dass es sich bei der von ihm vorgenommenen Codeüberschreibung um einen „technischen Fehler“ handele.

KI-Systeme: Keine katastrophalen Folgen

Laut den von OpenAI bestätigten Forschern seien die KI-Systeme derzeit nicht in der Lage, ihr manipulatives Verhalten zu „katastrophalen Folgen“ führen zu lassen. Zudem hatten die Forscher von o1 laut Futurism keinen Zugriff auf die internen Prozesse und konnten in ihrer Studie lediglich die Selbstaussagen des Systems auswerten.

Verpassen Sie keine Neuigkeiten rund um Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicken Sie auf den Link in der Bestätigungs-E-Mail, um Ihre Registrierung abzuschließen.

Wünschen Sie weitere Informationen zum Newsletter? Erfahren Sie jetzt mehr