OpenAI und Perplexity: das Agenten-Rennen

Follow on LinkedIn

Agenten sind das KI-Thema der Stunde: OpenAI und Perplexity haben mit ihren neuesten Agenten den Sprung vom reinen Chatbot zum handlungsfähigen digitalen Assistenten geschafft. Doch während die Versprechen gross sind, offenbaren erste Tests auch die Grenzen des aktuellen Ansatzes.

OpenAI ChatGPT Agent: Der digitale Alleskönner

Mit dem neuen ChatGPT Agent hat OpenAI im Juli 2025 einen entscheidenden Schritt gemacht. Der «Agent»-Modus geht weit über das bekannte Frage-Antwort-Spiel hinaus: Er kann Websites durchsuchen, Gmail und GitHub verknüpfen, PDFs analysieren, Termine koordinieren und sogar eigenständig Käufe tätigen.

Das Versprechen: Einfach sagen «Plane meinen Tagesablauf», «Vergleiche Preise und kaufe einen Flug» oder «Erstelle eine Präsentation zu meinen Projektdaten» – der Agent übernimmt den Rest. Sicherheit steht dabei im Fokus: Sensitive Aktionen wie Passwort-Eingaben oder Käufe erfordern immer eine explizite Bestätigung.

OpenAI kombiniert hier die Funktionen ihrer früheren Tools «Operator» (Webautomation) und «Deep Research» (umfangreiche Webanalysen) zu einem umfassenden digitalen Assistenten. Das Ziel: ChatGPT soll nicht mehr nur antworten, sondern eigenständig agieren.

Comet Browser: Perplexitys radikaler Neuanfang

Während OpenAI bestehende Strukturen erweitert, geht Perplexity mit dem Comet Browser einen völlig anderen Weg. Hier wird der Browser selbst zur KI-Zentrale. Der «Comet Assistant» ist fest in die Seitenleiste integriert und kann:

  • Webseiten analysieren und Fragen dazu beantworten
  • E-Mails und Kalender automatisch durchsuchen
  • Preise vergleichen und Buchungen vornehmen
  • Formulare ausfüllen und lokale Daten verarbeiten

Die Innovation: Comet behält alle klassischen Browser-Features bei – Tab-Management, Chrome-Erweiterungen, Bookmark-Migration – aber bettet KI nahtlos in jeden Workflow ein. Die KI arbeitet tab-übergreifend und lotst Nutzer durch komplexe Recherche- und Organisationsaufgaben.

Der Vergleich: Zwei Philosophien, ein Ziel

KI-Agenten Vergleich
Aspekt OpenAI ChatGPT Agent Comet Browser (Perplexity)
Integration ChatGPT Web-App mit Tool-Konnektoren Eigenständiger Browser mit KI-Sidebar
Fokus Produktivität und Automatisierung KI-assistiertes Browsing
Zielgruppe Business-User, Teams, Knowledge Worker Power-User, Entwickler, Recherche-Profis
Ansatz Erweitert bestehende Plattform Neu gedachte Browser-Erfahrung
Sicherheit Benutzergenehmigungen bei sensiblen Aktionen Lokale Speicherung sensibler Daten, hohe Transparenz
Verfügbarkeit Pro/Plus/Team-Abo erforderlich Max-Abo oder Standalone; Desktop, bald Mobile

Das grosse Aber: Warum dauert ein Cupcake eine Stunde?

Trotz aller Fortschritte offenbart die Praxis ein fundamentales Problem: Beide Agenten arbeiten über herkömmliche Webinterfaces. Vorteil: Sie können praktisch jede bestehende Website nutzen. Nachteil: Sie sind nicht optimiert und daher extrem langsam.

Ein Test von OpenAIs Agent verdeutlicht das Dilemma: Für die Bestellung eines simplen Cupcakes benötigte das System über eine Stunde. Der Agent musste sich durch Websites klicken, Formulare ausfüllen und Captchas lösen – alles so, wie es ein menschlicher Nutzer täte, nur unendlich viel langsamer.

Warum ist das so? KI-Agenten müssen bei jedem Schritt:

  • Screenshots der Webseite analysieren
  • Relevante Elemente identifizieren
  • Entscheidungen über nächste Schritte treffen
  • Eingaben simulieren und Ergebnisse bewerten

Dieser Prozess ist ressourcenintensiv und fehleranfällig. Ein Mensch erkennt auf einen Blick den „Kaufen“-Button – der Agent muss erst verstehen, was er sieht.

API vs. Webinterface: Die Zukunft liegt in der Schnittstelle

Die eigentliche Revolution wird kommen, wenn Unternehmen speziell für KI-Agenten optimierte APIs bereitstellen. Statt umständlich durch Websites zu navigieren, könnten Agenten dann direkt mit den Services kommunizieren. Das wäre:

  • Schneller: Direkte Datenübertragung statt Screenshot-Analyse
  • Zuverlässiger: Strukturierte Daten statt unberechenbarer HTML-Layouts
  • Kostengünstiger: Weniger Rechenpower für dieselben Aufgaben

Einige Unternehmen experimentieren bereits mit „Agent-Ready“-Schnittstellen. Der Durchbruch wird kommen, wenn dies zum Standard wird.

Startschwierigkeiten

OpenAI und Perplexity haben wichtige Meilensteine gesetzt. Ihre Agenten zeigen eindrucksvoll, wohin die Reise geht: KI wird vom passiven Antwort-Tool zum aktiven digitalen Assistenten.

Für Early Adopters bieten beide Lösungen bereits heute spannende Möglichkeiten. Wer Geduld mitbringt und realistische Erwartungen hat, kann durchaus produktive Workflows entwickeln.

Die Realität ist jedoch: Wir stehen erst am Anfang. Wenn KI-Agenten auf herkömmliche Webinterfaces angewiesen sind, bleiben sie langsam und umständlich. Der wahre Durchbruch kommt, wenn das gesamte Web für Agenten optimiert wird. Oder wenn die Interfaces spezifisch zugeschnitten sind.

Bis dahin heisst es: Experimentieren, lernen und realistische Erwartungen haben. Denn auch wenn der Cupcake eine Stunde dauert – die Zukunft der digitalen Assistenten hat bereits begonnen.

Rolf Jeger, ein preisgekrönter Werber mit Ehrungen aus Cannes bis New York, verband früh seine Leidenschaft für Technologie mit unternehmerischem Geschick. Mit 15 Jahren programmierte er Software für den Commodore 64, die in Schweizer Filialen landete. Nach einer Banklehre siegte jedoch die Faszination fürs Marketing. Seine Arbeit für die Swissair markierte den Auftakt einer beeindruckenden Karriere in der Kommunikation. Heute leitet er eine Agentur in Zürich, wo er Marketing und IT in der Ära der digitalen Transformation vereint. Die KI-Revolution, die nun den Massenmarkt erreicht, inspiriert ihn so sehr, dass er sie nicht nur beruflich nutzt, sondern auch Bücher darüber schreibt.