Wer kennt es nicht? Man generiert ein tolles Bild mit Midjourney, Fluxif oder Dall-E – und dann fehlt noch dieses eine Detail. Bisher bedeutete das entweder frustrierendes Neugenerieren oder den Umweg über Photoshop. Doch Google mischt nun die Karten neu.
Seit Donnerstag gibt es mit „Gemini 2.0 Flash (Image Generation) Experimental“ ein Tool, das die Bildbearbeitung per Texteingabe auf ein völlig neues Level hebt.
Was dieses Tool leistet, ist schlichtweg verblüffend. Ich lud das Foto eines MINI hoch und verwandelte es in einer zweimi̦nütigen Texteingabe-Session: Auto umgefärbt, Haus im Hintergrund neu koloriert, „MINI“ perspektivisch korrekt auf die Straße gesetzt und Blumen im Vordergrund platziert.

In einem weiteren Test mit einem Midjourney-Bild einer Frau tauschte ich die Tasse in ihrer Hand gegen ein Smartphone (die typischen KI-Probleme mit Händen bleiben uns leider erhalten), ersetzte eine Zimmerpflanze durch ein Fenster und zauberte die Manhattan-Skyline als Aussicht hinein. Alles in unter zwei Minuten.

Die präzise Objektplatzierung per Sprachbefehl ist ein echter Durchbruch. „In der Hand“, „links unten“, „rechts oben“ – die KI versteht und setzt um. Auch die exakte Positionierung von Text, bisher ein notorisches Problem bei KI-Bildgeneratoren, funktioniert endlich zuverlässig.
Das Tool findet sich im Google AI Studio. Der einzige Wermutstropfen ist der typische Google-Makel: dieser sperrige Name. Bitte, Google, überarbeite das! Ansonsten: absolut grandios.