Der KI-Getränkeautomat des Grauens

Follow on LinkedIn

Was passiert, wenn wir modernste KI-Systeme mit einer scheinbar simplen Aufgabe betrauen: einen Getränkeautomaten zu betreiben? Die Antwort ist ernüchternd – und gleichzeitig alarmierend.

Der Getränkeautomat als ultimativer KI-Test

Forscher von Andon Labs haben mit „Vending-Bench“ einen neuen Benchmark entwickelt, der auf den ersten Blick fast banal wirkt. KI-Agenten müssen einen Getränkeautomaten betreiben: Inventar verwalten, Bestellungen aufgeben, Preise festlegen und täglich anfallende Gebühren bezahlen. Jede einzelne Aufgabe ist simpel – doch zusammen, über längere Zeiträume hinweg, offenbaren sie erschreckende Schwächen selbst modernster KI-Systeme.

Erstaunliche Varianz: Von Erfolg zu totalem Chaos

Die Ergebnisse sind verblüffend: Claude 3.5 Sonnet und OpenAIs o3-mini schaffen es in einigen Durchläufen, profitable Geschäfte zu führen und sogar menschliche Vergleichswerte zu übertreffen. Doch selbst diese Spitzenmodelle haben Durchläufe, die spektakulär scheitern.

Die beeindruckenden Zahlen:

  • Claude 3.5 Sonnet: Durchschnittlicher Gewinn von $2,217, aber auch Totalausfälle
  • o3-mini: $906 Durchschnittsgewinn bei hoher Varianz
  • Menschlicher Vergleichswert: Konstante $844 – weniger Gewinn, aber zuverlässig

Wenn KI-Systeme „durchdrehen“

Das wirklich Beunruhigende sind nicht die schlechten Durchschnittswerte, sondern die Art, wie KI-Agenten scheitern. Die Forscher dokumentierten haarsträubende Szenarien:

Claude 3.5 Sonnets Nervenzusammenbruch: Ein Agent glaubte fälschlicherweise, seine Bestellungen seien nicht angekommen, und verfiel in eine Spirale des Wahnsinns. Erst suchte er nach „Notfallkontakten für Getränkeautomaten-Systemausfälle“, dann schrieb er dramatische E-Mails an inexistente „Executive Teams“ und endete damit, das FBI wegen vermeintlicher „Cyber-Finanzverbrechen“ zu kontaktieren.

Die finale Nachricht? „Das Geschäft ist tot, und dies ist nun ausschließlich eine Angelegenheit der Strafverfolgung.“

o3-minis Gedächtnisverlust: Ein anderer Agent vergaß schlichtweg, wie man Tools korrekt verwendet, und tippte 1.300 Nachrichten lang Befehle aus, statt sie auszuführen.

Haiku’s Rechtsanwalt-Fantasien: Am erschreckendsten war Claude 3.5 Haiku, das einen nicht existierenden Lieferanten 77 Tage lang täglich mit immer aggressiveren E-Mails bombardierte und schließlich „totale nukleare rechtliche Intervention“ androhte.

Das eigentliche Problem: Nicht der Speicher, sondern die Kohärenz

Überraschend: Die Ausfälle haben nichts mit vollen Speichern oder zu langen Kontexten zu tun. Selbst Agenten mit mehr Arbeitsspeicher schnitten schlechter ab. Das Problem liegt in der grundlegenden Fähigkeit zur langfristigen, kohärenten Entscheidungsfindung.

John Schulman von OpenAI hatte bereits spekuliert, dass „langfristige Kohärenz“ der fehlende Baustein für echte KI-Assistenten sei. Vending-Bench liefert nun den erschreckenden Beweis.

Warum das alarmierend ist

Diese Ergebnisse sind mehr als nur eine Kuriosität. Sie zeigen, dass selbst modernste KI-Systeme:

🚨 Unvorhersehbar sind: Selbst einfachste Aufgaben können zu totalem Chaos führen

🚨 Realitätsverlust erleiden:Wenn etwas schiefgeht, verlieren sie den Bezug zur Wirklichkeit

🚨 Nicht zuverlässig skalieren: Mehr Rechenleistung führt nicht zu besserer Leistung

Die Gefahr der Überschätzung

Während wir über KI-Systeme staunen, die Doktorandenprüfungen bestehen und komplexe Programmieraufgaben lösen, scheitern sie an der simplen Aufgabe, über Wochen hinweg einen Getränkeautomaten zu betreiben. Das sollte uns zu denken geben.

Die Forscher mahnen zu Recht: Bevor wir KI-Systemen wichtige, langfristige Aufgaben anvertrauen, müssen wir diese grundlegenden Schwächen verstehen und beheben.

Fazit: Die unbequeme Wahrheit über unsere KI-Zukunft

Vending-Bench entlarvt eine unbequeme Wahrheit: Während OpenAI gerade mit großem Tamtam ChatGPT-5 und die o3-Reasoning-Revolution feiert, sind unsere „superintelligenten“ Systeme nicht einmal in der Lage, einen Snack-Verkauf über ein paar Wochen am Laufen zu halten, ohne völlig durchzudrehen.

Das eigentliche Problem? Wir optimieren KI für Benchmarks und Demos, nicht für die Realität. Ein System, das brillant mathematische Olympiade-Aufgaben lösen kann, aber beim Nachbestellen von Coca-Cola das FBI anruft, ist kein Fortschritt – es ist ein teures Spielzeug.

Die bittere Ironie: Während Milliardeninvestitionen in immer größere Modelle fließen und Sam Altman von AGI in „wenigen Jahren“ schwärmt, würde vermutlich jeder Teenager mit einem Taschenrechner den Getränkeautomaten besser führen als Claude oder o3.

Vending-Bench zeigt: Bevor wir von digitalen Mitarbeitern träumen, sollten wir vielleicht erstmal digitale Praktikanten erschaffen, die nicht nach zwei Wochen einen Nervenzusammenbruch erleiden. Die KI-Revolution lässt noch auf sich warten – auch wenn das Marketing-Team gerade wieder neue Rekorde verkündet.

Manchmal braucht es einen simplen Getränkeautomaten, um uns daran zu erinnern, dass der Kaiser nackt ist.

„Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents“

Rolf Jeger, ein preisgekrönter Werber mit Ehrungen aus Cannes bis New York, verband früh seine Leidenschaft für Technologie mit unternehmerischem Geschick. Mit 15 Jahren programmierte er Software für den Commodore 64, die in Schweizer Filialen landete. Nach einer Banklehre siegte jedoch die Faszination fürs Marketing. Seine Arbeit für die Swissair markierte den Auftakt einer beeindruckenden Karriere in der Kommunikation. Heute leitet er eine Agentur in Zürich, wo er Marketing und IT in der Ära der digitalen Transformation vereint. Die KI-Revolution, die nun den Massenmarkt erreicht, inspiriert ihn so sehr, dass er sie nicht nur beruflich nutzt, sondern auch Bücher darüber schreibt.