Agenten sind das KI-Thema der Stunde: OpenAI und Perplexity haben mit ihren neuesten Agenten den Sprung vom reinen Chatbot zum handlungsfähigen digitalen Assistenten geschafft. Doch während die Versprechen gross sind, offenbaren erste Tests auch die Grenzen des aktuellen Ansatzes.
OpenAI ChatGPT Agent: Der digitale Alleskönner
Mit dem neuen ChatGPT Agent hat OpenAI im Juli 2025 einen entscheidenden Schritt gemacht. Der «Agent»-Modus geht weit über das bekannte Frage-Antwort-Spiel hinaus: Er kann Websites durchsuchen, Gmail und GitHub verknüpfen, PDFs analysieren, Termine koordinieren und sogar eigenständig Käufe tätigen.
Das Versprechen: Einfach sagen «Plane meinen Tagesablauf», «Vergleiche Preise und kaufe einen Flug» oder «Erstelle eine Präsentation zu meinen Projektdaten» – der Agent übernimmt den Rest. Sicherheit steht dabei im Fokus: Sensitive Aktionen wie Passwort-Eingaben oder Käufe erfordern immer eine explizite Bestätigung.
OpenAI kombiniert hier die Funktionen ihrer früheren Tools «Operator» (Webautomation) und «Deep Research» (umfangreiche Webanalysen) zu einem umfassenden digitalen Assistenten. Das Ziel: ChatGPT soll nicht mehr nur antworten, sondern eigenständig agieren.
Comet Browser: Perplexitys radikaler Neuanfang
Während OpenAI bestehende Strukturen erweitert, geht Perplexity mit dem Comet Browser einen völlig anderen Weg. Hier wird der Browser selbst zur KI-Zentrale. Der «Comet Assistant» ist fest in die Seitenleiste integriert und kann:
- Webseiten analysieren und Fragen dazu beantworten
- E-Mails und Kalender automatisch durchsuchen
- Preise vergleichen und Buchungen vornehmen
- Formulare ausfüllen und lokale Daten verarbeiten
Die Innovation: Comet behält alle klassischen Browser-Features bei – Tab-Management, Chrome-Erweiterungen, Bookmark-Migration – aber bettet KI nahtlos in jeden Workflow ein. Die KI arbeitet tab-übergreifend und lotst Nutzer durch komplexe Recherche- und Organisationsaufgaben.
Der Vergleich: Zwei Philosophien, ein Ziel
Aspekt | OpenAI ChatGPT Agent | Comet Browser (Perplexity) |
---|---|---|
Integration | ChatGPT Web-App mit Tool-Konnektoren | Eigenständiger Browser mit KI-Sidebar |
Fokus | Produktivität und Automatisierung | KI-assistiertes Browsing |
Zielgruppe | Business-User, Teams, Knowledge Worker | Power-User, Entwickler, Recherche-Profis |
Ansatz | Erweitert bestehende Plattform | Neu gedachte Browser-Erfahrung |
Sicherheit | Benutzergenehmigungen bei sensiblen Aktionen | Lokale Speicherung sensibler Daten, hohe Transparenz |
Verfügbarkeit | Pro/Plus/Team-Abo erforderlich | Max-Abo oder Standalone; Desktop, bald Mobile |
Das grosse Aber: Warum dauert ein Cupcake eine Stunde?
Trotz aller Fortschritte offenbart die Praxis ein fundamentales Problem: Beide Agenten arbeiten über herkömmliche Webinterfaces. Vorteil: Sie können praktisch jede bestehende Website nutzen. Nachteil: Sie sind nicht optimiert und daher extrem langsam.
Ein Test von OpenAIs Agent verdeutlicht das Dilemma: Für die Bestellung eines simplen Cupcakes benötigte das System über eine Stunde. Der Agent musste sich durch Websites klicken, Formulare ausfüllen und Captchas lösen – alles so, wie es ein menschlicher Nutzer täte, nur unendlich viel langsamer.
Warum ist das so? KI-Agenten müssen bei jedem Schritt:
- Screenshots der Webseite analysieren
- Relevante Elemente identifizieren
- Entscheidungen über nächste Schritte treffen
- Eingaben simulieren und Ergebnisse bewerten
Dieser Prozess ist ressourcenintensiv und fehleranfällig. Ein Mensch erkennt auf einen Blick den „Kaufen“-Button – der Agent muss erst verstehen, was er sieht.
API vs. Webinterface: Die Zukunft liegt in der Schnittstelle
Die eigentliche Revolution wird kommen, wenn Unternehmen speziell für KI-Agenten optimierte APIs bereitstellen. Statt umständlich durch Websites zu navigieren, könnten Agenten dann direkt mit den Services kommunizieren. Das wäre:
- Schneller: Direkte Datenübertragung statt Screenshot-Analyse
- Zuverlässiger: Strukturierte Daten statt unberechenbarer HTML-Layouts
- Kostengünstiger: Weniger Rechenpower für dieselben Aufgaben
Einige Unternehmen experimentieren bereits mit „Agent-Ready“-Schnittstellen. Der Durchbruch wird kommen, wenn dies zum Standard wird.
Startschwierigkeiten
OpenAI und Perplexity haben wichtige Meilensteine gesetzt. Ihre Agenten zeigen eindrucksvoll, wohin die Reise geht: KI wird vom passiven Antwort-Tool zum aktiven digitalen Assistenten.
Für Early Adopters bieten beide Lösungen bereits heute spannende Möglichkeiten. Wer Geduld mitbringt und realistische Erwartungen hat, kann durchaus produktive Workflows entwickeln.
Die Realität ist jedoch: Wir stehen erst am Anfang. Wenn KI-Agenten auf herkömmliche Webinterfaces angewiesen sind, bleiben sie langsam und umständlich. Der wahre Durchbruch kommt, wenn das gesamte Web für Agenten optimiert wird. Oder wenn die Interfaces spezifisch zugeschnitten sind.
Bis dahin heisst es: Experimentieren, lernen und realistische Erwartungen haben. Denn auch wenn der Cupcake eine Stunde dauert – die Zukunft der digitalen Assistenten hat bereits begonnen.