top of page

KI als Co-Regisseur? So verändert Bild-KI die Filmwelt

Visuelle Künstliche Intelligenz ist längst nicht mehr nur ein spannendes Experiment für kreative Köpfe, sondern ein zunehmend fester Bestandteil professioneller Produktionsprozesse. Vor allem in der Film- und Serienentwicklung verändert sie aktuell die Art, wie wir visuell denken, planen und umsetzen. Seit Beginn 2025 hat sich in diesem Bereich einiges getan – sowohl technologisch als auch im Hinblick auf den konkreten Einsatz im Arbeitsalltag.


 

Midjourney – der kreative Kickstart


Midjourney ist für viele der erste Berührungspunkt mit KI-generierter Bildwelt – und das völlig zurecht. Gerade in der frühen Konzeptionsphase, wenn Moodboards, Lookbooks oder visuelle Ideenskizzen entstehen, spielt das Tool seine Stärken aus: Die Ergebnisse sind atmosphärisch, schnell produziert und oft überraschend inspirierend.


verschiedene grüne Kakteen die mit Midjouney erstellt wurden

Was besonders schätzen ist: Midjourney ist unglaublich zugänglich. Du musst einfach nur beschreiben, was du sehen möchtest – und je konkreter du wirst, desto genauer trifft das Tool deine Vorstellung. Gleichzeitig kannst du den Stil, die Diversität oder auch den Grad an „Versponnenheit“ deiner Bilder ganz gezielt beeinflussen. Auch das Bildformat und die Midjourney-Version lassen sich von Anfang an festlegen.


Die Benutzeroberfläche von Midjourney

Wenn dir mal die Ideen für ein Motiv oder einen Stil fehlen: Lass dich von der Community inspirieren. Auf der Plattform findest du eine riesige Galerie an generierten Bildern – inklusive Prompts. Diese lassen sich einfach kopieren, anpassen und als Lernhilfe nutzen. Gerade am Anfang ist das super hilfreich, um ein Gefühl für die Sprache hinter den Prompts zu entwickeln.


Seit dem Update auf Version 5.2 hat Midjourney nochmal ordentlich zugelegt: Verbesserte Gesichter, ein flexibler Zoom-Modus und die Möglichkeit, gezielt Bildbereiche zu verändern, machen das Tool deutlich produktionsnäher. Für Szenenbild, Kostümentwicklung oder Creature-Design ist Midjourney damit nicht mehr nur Spielerei, sondern ein echter Kreativbooster.


 

Von DALL·E zu GPT-4o


Die Einführung von GPT-4o hat die Bildgenerierung mit ChatGPT grundlegend verändert. Mit GPT-4o ist das Bildmodell vollständig in den Chat integriert. Das bedeutet: Der Dialog mit der KI wird zur neuen Bildbearbeitungsoberfläche.

Früher – mit DALL·E – war die Bedienung technisch und oft frustrierend. Du musstest detaillierte Prompts schreiben, die jedes kleine Element beschrieben. Das Ergebnis war ein „Glücksbild“. Änderungswünsche? Nur durch Neugenerierung.

Heute – mit GPT-4o – sieht das ganz anders aus. Du kannst sagen:

„Mach das Bild herbstlicher.“ „Füge eine Katze ein.“ „Bitte lass die Person lächeln.“ „Dreh sie leicht nach links.“


GPT-4o versteht dich – und arbeitet Schritt für Schritt mit dir gemeinsam an dem Bild. Du brauchst kein Prompt-Wissen und keine KI-Vorerfahrung. Genau das macht den Einstieg so niedrigschwellig.


 Auch kannst du einfach sagen:

„Mach daraus eine Actionfigur – mit Brille, Buch und einem Skateboard.“

Wenn dir das Ergebnis nicht gefällt:

„Nimm statt Skateboard lieber einen Tennisschläger.“ „Kannst du die Beleuchtung weicher machen?“


Die KI erkennt, was du meinst, analysiert das vorhandene Bild und verändert nur das, was du ansprichst – der Rest bleibt erhalten. Kein Neuanfang, kein Prompt-Feintuning.


Ein Crumpy Kaktus als Aktionfigur, erstellt mit Chat GPT 4o

Ein zentraler Unterschied liegt auch in der Art, wie die Bilder technisch aufgebaut werden. Frühere Modelle wie DALL·E oder Stable Diffusion arbeiteten nach dem Prinzip „aus Rauschen entsteht Bild“. Dabei beginnt der Prozess mit einem chaotischen Pixelbild – und die KI versucht, Schritt für Schritt ein Motiv daraus zu „entstören“.


GPT-4o dagegen arbeitet pixelbasiert und autoregressiv: Es beginnt oben links, generiert Bildausschnitt für Bildausschnitt – prüft nach jedem Schritt, ob das, was es bisher gezeichnet hat, zum gewünschten Ergebnis passt. Dann entscheidet es, wie es weitergeht. Dadurch entsteht eine stimmige Komposition mit Kontext. Das Ergebnis: weniger Fehler (z. B. keine sechs Finger mehr) und mehr Kontrolle über Details wie Objektplatzierung, Farben oder Perspektive.


Noch nie war der Einstieg in KI-Bildgenerierung so niedrigschwellig. Wo früher Fachwissen und Software nötig waren, reicht heute ein Foto und ein bisschen Neugier. Viele sehen in GPT-4o Image Generation daher bereits eine ernstzunehmende Konkurrenz für professionelle Grafiker. Denn auch wenn die Ergebnisse nicht immer makellos sind, reichen sie für zahlreiche alltägliche Anwendungen vollkommen aus.


Aber professionelle Grafikerinnen und Designer sehen in GPT-4o auch ein mächtiges neues Tool: zum Experimentieren, Visualisieren, Weiterdenken. Es ersetzt nicht die kreative Idee – aber es hilft, schneller von der Skizze zum Konzept zu kommen.


Aber: Die Kontrolle liegt nicht (mehr) ganz bei uns


Die Spielregeln macht OpenAI. Nach dem massiven Ansturm auf Studio-Ghibli-Bilder begrenzte das Unternehmen die Auslastung, drosselte die Geschwindigkeit der Generierung und schränkte bestimmte Inhalte (z. B. Prominente) ein – teils willkürlich, teils ohne nachvollziehbare Regeln und sowohl bei kostenlosen als auch bezahlten Konten. Die Nachfrage war so groß, dass OpenAI-Chef Sam Altman scherzhaft von „schmelzenden GPUs“ sprach.


Das zeigt: Auch wenn das Tool frei zugänglich ist, bleibt es ein Produkt in der Hand eines Unternehmens – mit allen Konsequenzen, die das für Nutzerfreundlichkeit, Verlässlichkeit und kreative Freiheit bedeutet.


 

Open Art mit Stable Diffusion


Während Tools wie Midjourney oder DALL·E vor allem durch ihre einfache Handhabung überzeugen, richtet sich Stable Diffusion eher an technisch versierte Teams, die gerne selbst Hand anlegen. Die Open-Source-Struktur bietet nämlich weit mehr Spielraum: Eigene Trainingsdaten einspielen, spezifische Stile definieren, ganze Workflows individuell aufbauen – hier ist wirklich viel möglich, wenn man das nötige Know-how mitbringt.

Was ich besonders spannend finde: Mit Stable Diffusion lassen sich nicht nur Bilder und Charaktere in unterschiedlichsten Stilen erzeugen – es gibt auch viele Wege, diese weiterzuentwickeln. Prompts können klassisch eingegeben oder aus Bildern heraus generiert werden. Besonders hilfreich ist das, wenn man eine visuelle Idee hat, aber (noch) nicht die richtigen Worte dafür findet.


Ein echtes Highlight – gerade auf Plattformen wie OpenArt – ist die Bearbeitungstiefe: Aktuell gibt es dort z. B. eine Beta-Version eines KI-Chats, in dem ihr einfach schreiben könnt, welche Bilddetails verändert werden sollen. Super intuitiv – und dazu mit Version History. Das heißt: Ihr könnt jederzeit zu einer früheren Bildversion zurückspringen, neue Varianten testen und kreativ einfach mal spinnen.


Ein Bild von einem traurigen Kaktus mit Gesicht, der in der Bearbeitungsfläche von Open Art in verschiedenen Versionen bearbeitet wurde

Auch richtig cool: Bilder lassen sich verschmelzen oder der Stil eines Bildes kann auf ein anderes übertragen werden – ohne dass der eigentliche Inhalt verloren geht. Gerade in der Serienentwicklung oder bei Styleframes ist das ein echter Gamechanger.


Für Studios, die über internes Tech-Know-how verfügen, ergeben sich damit ganz neue Möglichkeiten: Von automatisierten Art-Workflows über VFX-Pipelines bis hin zu AI-unterstütztem Matte Painting. Wer die Kapazität hat, sich ein eigenes Toolset auf Basis von Stable Diffusion zu bauen, kann nicht nur massiv Zeit sparen, sondern auch visuelle Konsistenz über ganze Projekte hinweg sichern.


 

Runway ML – von Text zu bewegtem Bild


Ein echtes Highlight ist Runway ML, das mit der aktuellen Gen-3-Version deutlich an Relevanz gewonnen hat. Die Fähigkeit, aus Text kurze Videoclips zu generieren – inklusive einfacher Bewegungsabläufe und Objektverfolgung – macht Runway zu einem mächtigen Tool in der Pre-Visualisierung. Noch nie war es so einfach, Stimmungen oder Kameraperspektiven in Minuten zu visualisieren.


So beginnt man meist mit der Bilderstellung, indem man einen prompt schreibt oder ein bereits vorhandenes Bild als Referenz benutzt. Aber Vorsicht: Runway kann nicht genau das Bild erkennen, sondern fertigt eine Beschreibung des Bildes als Prompt an, welchen ihr dann auch noch bearbeiten könnt. Habt ihr euch für einen Prompt entschieden, könnt ihr das Bild in verschiedenen „Moods“ generieren. Von 3D Cartoon bis Hyperrealistisch ist alles dabei und ihr könnt auch eure eigenen Moods erstellen. Bei der Erstellung könnt ihr dann noch einstellen in welchem Format das Bild sein soll, wie „ästhetisch“ es sein soll und ihr könnt außerdem einstellen, dass ihr mit einem Prompt ähnlich Ergebnisse bekommt, egal welchen Style ihr auswählt.


Ist das Bild so, wie ihr euch das vorstellt, könnt ihr es direkt auch in Bewegbild umwandeln. Hier solltet ihr vor allem die Kamerabewegung beschreiben und die Bewegung der Person oder des Objektes im Bild. Runway bietet dafür aber auch einen extra Guide an, wo ihr nachlesen könnt, welche Arten der Prompts funktionieren und welche nicht. Meistens hilft es die Beschreibung einfach zu halten. Auch hier könnt ihr wieder das Format auswählen und die länge eures Videos (hier gibt es die Auswahl zwischen 5 und 10 Sekunden). Außerdem könnt ihr zwischen der 3 und  4 Video Generationen von Runway wechseln, die 4 Generation verspricht eine bessere Kontrolle über das Video.


Ein Grumpy Kaktus der mit der Ki von Runway ML erstellt wurde, welcher sich nun in der Videoerstllungsoberfläche von Runway ML befindet.

Für Pitches, Moodfilme oder Testshots ist das ein echter Gamechanger – vor allem für Teams, die schnell erste Ideen sichtbar machen wollen. Schade ist ein bisschen, dass man nicht bestimmte Bereiche eines Bildes nachbearbeiten kann wie z.B. bei GPT-4o.


 

Spezialtools – präzise Unterstützung für einzelne Gewerke

Neben den großen Playern haben sich 2025 auch einige Nischenlösungen etabliert, die ganz gezielt einzelne Produktionsbereiche unterstützen:


  • Marvelous Designer und Clo3D ermöglichen die realistische Simulation von Kleidung und Stoffverhalten – eine enorme Hilfe in der digitalen Kostümentwicklung oder bei der Abstimmung mit dem Art Department.

  • Kaedim überzeugt durch die automatische Umwandlung von 2D-Designs in 3D-Modelle – ein Vorteil für Produktionen mit engem Zeitrahmen und hohen Visualisierungserwartungen.

  • Let’s Enhance oder VanceAI helfen bei der technischen Bildveredelung, etwa durch Upscaling, Schärfung oder Farbanpassung von Archiv- und Promomaterial.


 

Fazit: Von der Spielerei zum festen Set-Mitglied

KI ist nicht mehr das nette Spielzeug für Tech-Nerds – sie ist angekommen in den Kreativabteilungen, in Konzeptionsmeetings und zunehmend auch in der Postproduktion. Ob es darum geht, Bildideen zu entwickeln, Styles zu testen oder ganze Szenen zu visualisieren: KI-Tools wie Midjourney, GPT-4o, Stable Diffusion oder Runway ML sind längst keine Nischenlösungen mehr, sondern echte Beschleuniger für kreative Prozesse.

Und auch wenn sie (noch) nicht die Regie übernehmen: Als Co-Regisseur, Ideengeberin oder visuelle Muse hat KI das Potenzial, unsere Art zu denken, zu arbeiten und zu gestalten grundlegend zu verändern. Vorausgesetzt, wir behalten die Kontrolle – und vor allem die Neugier.

bottom of page