OpenAI’s GPT-4o entthront Midjourney: Die Neuverteilung der Karten in der KI-Bildwelt

Follow on LinkedIn

Was OpenAI gerade mit GPT-4o vollbracht hat, ist kein blosses Update – es ist ein Paradigmenwechsel, der die gesamte Welt der KI-Bildgenerierung auf den Kopf stellt. Mit der Integration des multimodalen GPT-4o-Modells in ChatGPT sprengt OpenAI die bisherigen Grenzen des Machbaren und ermöglicht Dinge, die bisher schlicht unmöglich waren. Die Ära von DALL·E ist vorbei, und selbst Branchenprimus Midjourney muss sich warm anziehen.

Abschied von DALL·E’s Kaugummi-Ästhetik

Seien wir ehrlich: Niemand hat DALL·E bisher wirklich ernst genommen. Die generierten Bilder strahlten etwas Grauenhaftes aus, wie billiger Kaugummi aus dem Automaten. Technisch durchaus beeindruckend, aber ästhetisch oft eine Zumutung. Während Midjourney mit atemberaubenden, fotorealistischen Bildern glänzte, blieb DALL·E das hässliche Entlein der Bildgeneratoren.

Der Kontroll-Faktor: Midjourneys Achillesferse

Doch trotz seiner visuellen Überlegenheit hatte Midjourney einen entscheidenden Schwachpunkt: die Kontrolle. Versuchen Sie mal, Midjourney beizubringen, bestimmte Objekte an bestimmten Orten zu platzieren – keine Chance! Diese Unberechenbarkeit machte präzises Arbeiten oft zum Glücksspiel.

Als Google letzte Woche den Image Generator in ihrem Flash 2.0 Experimental lancierte, keimte bei mir Hoffnung auf. Endlich Kontrolle! Doch OpenAI lässt nun alle Konkurrenten alt aussehen.

Total Control: GPT-4o verändert die Spielregeln

Mit GPT-4o präsentiert OpenAI einen Bildgenerator in einer Qualität, als hätte es das peinliche DALL·E nie gegeben. Die Kombination aus präziser Kontrolle und hervorragender Bildqualität setzt neue Massstäbe. Besonders beeindruckend: Texte werden absolut korrekt wiedergegeben – ein Quantensprung gegenüber den hieroglyphenartigen Zeichenketten früherer Generatoren.

Und es gibt etwas, das Kreative seit Jahren herbeisehnen: Konsistenz! Der gleiche Charakter lässt sich mühelos über verschiedene Bilder hinweg beibehalten. Was bisher nur in Grenzen mit Seed-Nummern und allerlei Trickserein möglich war, ist jetzt standardmässig integriert.

Bestehende Bilder? Kein Problem!

Die Neugestaltung geht noch weiter: GPT-4o kann bestehende Bilder und Texte einfach einbinden und bearbeiten. Uploaden Sie Ihre Handskizze, und GPT-4o verwandelt sie in ein professionelles Design. Oder fotografieren Sie Ihr Wohnzimmer und lassen Sie sich verschiedene Einrichtungsstile zeigen – ohne dass die Grundstruktur des Raums verlorengeht.

Diese nahtlose Integration von Bearbeitung und Erstellung macht GPT-4o zu einem ernsthaften Konkurrenten nicht nur für andere KI-Bildgeneratoren, sondern auch für etablierte Consumer-Designtools wie Canvas. Die müssen sich jetzt warm anziehen!

Das Ende der Bildgeneratoren, wie wir sie kannten?

Der Sprung von DALL·E zu GPT-4o für die Bildgenerierung markiert nicht bloss ein Update – OpenAI hat damit die gesamte Landschaft der KI-Bildkreation neu definiert. Die Kombination aus fotografischer Qualität, präziser Kontrolle und kontextuellem Verständnis macht es zu einem echten Wendepunkt.

Midjourney wird zweifellos antworten müssen, wenn es seine Vormachtstellung nicht verlieren will. Doch die eigentlichen Gewinner sind die Nutzer: Was früher komplexe Softwarekenntnisse und jahrelange Übung erforderte, ist nun mit einfachen Textanweisungen möglich.

Die visuelle kreative Revolution ist da.


Das Beitragsbild wurde mit folgender Instruktion generiert: Ein modernes Café mit drei Tischen in präziser Anordnung: links ein runder Tisch mit blauer Tischdecke und einer Katze darunter, in der Mitte ein quadratischer Tisch mit einer roten Vase und weißen Blumen, rechts ein ovaler Tisch mit einem aufgeschlagenen Buch, auf dessen Seiten deutlich lesbar steht ‚Creativity meets Control‘. An der Wand hängt ein Schild mit der Aufschrift ‚CAFÉ CONSISTENCY‘ und darunter ein kleineres Schild mit ‚Est. 2025‘. Photorealistisch Licht fällt von links rein
Für Midjourney so umformuliert: a photorealistic modern café interior, precise table arrangement: left a round table with a blue tablecloth and a cat lying underneath, center a square table with a red vase filled with white flowers, right an oval table with an open book clearly showing the words „Creativity meets Control“ on its pages, on the back wall a sign reading „CAFÉ CONSISTENCY“ with a smaller sign underneath „Est. 2025“, sunlight streaming in from the left, cinematic lighting, 85mm lens, shallow depth of field, hyperreal detail

Rolf Jeger, ein preisgekrönter Werber mit Ehrungen aus Cannes bis New York, verband früh seine Leidenschaft für Technologie mit unternehmerischem Geschick. Mit 15 Jahren programmierte er Software für den Commodore 64, die in Schweizer Filialen landete. Nach einer Banklehre siegte jedoch die Faszination fürs Marketing. Seine Arbeit für die Swissair markierte den Auftakt einer beeindruckenden Karriere in der Kommunikation. Heute leitet er eine Agentur in Zürich, wo er Marketing und IT in der Ära der digitalen Transformation vereint. Die KI-Revolution, die nun den Massenmarkt erreicht, inspiriert ihn so sehr, dass er sie nicht nur beruflich nutzt, sondern auch Bücher darüber schreibt.