In den vergangenen zehn Jahren hat die KI-Forschung enorme Fortschritte gemacht. Wer KI hört, den schauert es zunächst: Hollywood hat in den letzten Dekaden alles getan, um der Technik – ohne dass sie damals existierte – einen schlechten Ruf zu verpassen. Aber keine Sorge: Von einer menschengleichen, starken künstlichen Intelligenz, einer sogenannten Artificial General Intelligence (AGI) wie einem Skynet, das mit Terminatoren Jagd auf die ausgemergelten Reste der Menschheit macht, sind wir noch Jahrzehnte entfernt.
Bei aktuellen KI-Anwendung handelt es sich bislang nur sogenannte schwache KIs. Die sind für einzelne, spezialisierte Anwendungsbereiche gedacht. Künstliche Fachidioten, wenn man so will, nichts Bedrohliches. Insbesondere im Bereich der Bilderkennung und -erstellung gibt es seit einiger Zeit enorme Fortschritte, die längst Teil unseres Apple-Alltags sind: So ist Apples Computational Photography genauso KI-basiert wie die Fotos-App und deren leistungsstarke Inhaltserkennung. Anwendungen wie Pixelmator oder Photoshop nutzen Machine-Learning- und damit KI-Routinen, um Fotos zu verbessern oder sogar automatisch zu restaurieren.

StyleGAN und Personen, die es nicht gibt
Von der Bildanalyse und -verbesserung ist es nur noch ein kleiner Schritt zur Generierung vollständig neuer Bilder auf Basis der Inhaltsinformationen. Und tatsächlich gibt es inzwischen eine ganze Reihe von Tools, die es erlauben, neue Fotos zu generieren. Bereits seit Ende 2018 die faszinierende Website this person does not exist online: Das dahinterliegende Machine-Learning-System StyleGAN zeigt bei jedem Reload der Website das Bild einer Person.
Trotz der authentischen Wirkung – sogar Bildrauschen, Belichtung und Hauttöne wirken auf den ersten Blick völlig natürlich – gibt es jedoch keine dieser Personen in Wirklichkeit: StyleGAN generiert sie auf Basis erlernter Inhalte. StyleGAN wird dabei laufend verbessert: Artefakte und andere Probleme wurden inzwischen behoben. Wer genau hinschaut, kann zum Beispiel an den immer etwas unpassend wirkenden Zähnen sehen, dass etwas mit dem Foto nicht stimmt.

Intelligente Bildgeneratoren
Doch die KI-Bildgeneratoren sind inzwischen noch einmal deutlich leistungsfähiger geworden: Verschiedene Unternehmen und Projekte arbeiten derzeit an KI-Bildgeneratoren mit dem Ziel, einen geschriebenen (oder gesprochenen) Nutzerwunsch in ein Bild oder Kunstwerk zu überführen. Und das mit erstaunlichen Ergebnissen: Die Dienste und Anwendungen heißen MindsEye, Midjourney, Neurogen, Stable Diffusion, Dreambooth oder Dall-E 2 und sind in der Lage, aus Textanweisungen Fotos, Gemälde und 3D-Kunstwerke zu erstellen, die zumindest auf den ersten Blick authentisch wirken.
Die Erstellung entsprechender „AI-Art“, mit künstlicher Intelligenz generierter Kunst, ist dadurch inzwischen so simpel wie die Google-Bildersuche: Mit der korrekten Syntax können Nutzer binnen weniger Minuten faszinierende – oder auch gruselige – Bilder erstellen, die auf den ersten Blick aussehen, als seien sie von Menschen gemacht. Es gibt zum Beispiel mit Sicherheit kein echtes Van-Gogh-Bild einer Japanerin, die ihr iPhone benutzt. Doch dank des inzwischen für jedermann offenen und für 15 Generierungen pro Monat kostenlosen Dall-E2 von OpenAI ist es aber zum Beispiel ein Leichtes, ein Bild zu erstellen, das den gewünschten Inhalt hat und das aussieht, als sei es von Van Gogh gemalt.

Wie KI-Bildgeneratoren funktionieren
Doch wie machen die Bildgeneratoren das? Die Basis der Technik sind intelligente Machine-Learning-Algorithmen. Frisch angelegt, sind diese wie neugeborene Babies und müssen zunächst einmal lernen und trainieren. Für das Training der KI werden üblicherweise Positiv- und Negativbeispiele für Bildinhalte zusammengestellt, die der Algorithmus analysiert. Nutzern von Apples Fotos-App dürfte das bekannt vorkommen: Die Gesichtserkennung arbeitet nach einem ähnlichen Muster, sammelt selbstständig Daten, analysiert sie und fragt anschließend den Nutzer, ob sie richtig oder falsch liegt – sucht sich also selbst Positiv- und Negativbeispiele. Sicher: Die Routinen von Apple Fotos und OpenAI sind in Umfang und Leistung sicherlich nicht vergleichbar – die Art und Weise, wie anwendungsbezogene Künstliche Intelligenz arbeitet, hingegen schon.
Um möglichst treffsichere und realistische Ergebnisse zu erzielen, müssen die KIs also eine Menge Bilder analysieren und in Interaktion mit Menschen deren Inhalt prüfen. Nur auf diese Weise „versteht“ der Algorithmus, wie bestimmte Bilder aussehen. Auf Basis dieser Informationen kann sie dann neue Bilder generieren. Allerdings ist die KI längst nicht so intelligent, wie es zunächst scheint: Einerseits braucht sie natürlich laufend Training und Hilfe durch ihre menschlichen „Mentoren“. Andererseits natürlich genug Rohmaterial. Das kann wiederum nur von echten Werken stammen – und geht soweit, dass manche Künstler die KIs bereits der Urheberrechtsverletzung verdächtigen.
Garbage in, Garbage out
Allerdings gilt auch bei KIs wie überall in der Datenverarbeitung der Grundsatz: „Garbage in, Garbage out“: Gibt es keine Daten oder sind diese schlecht, ist kein vernünftiges Ergebnis zu erwarten. Im Ergebnis sind von völlig fehlinterpretierten Anfragen bis zu klar beleidigenden Inhalten alle nur denkbaren Fehler der KI denkbar. Auch der gefährliche AI-Bias – ein durch tendenziöse Daten verursachtes Vorurteil der KI – muss vermieden werden. Da die KI natürlich keinen moralischen Kompass hat, muss hier der Mensch eingreifen: Potentiell gefährliche Anfragen werden bei Dall-E2 ebenso geblockt wie Gewalt, Nacktheit und Promi-Namen.

Doch auch legitime Suchbegriffe führen nicht selten zu Nonsense-Ergebnissen. So ergibt der Suchstring „photo of a mastodon and neanderthal hunters“ schlicht künstlich generierte Fotos von nicht vorhandenen Modellbau-Setups oder naturwissenschaftlichen Dioramen. Der Grund dafür ist natürlich, dass es keine Fotos von echten Mastodons oder Neandertaler-Jägern gibt: Kameras gab es damals natürlich nicht, dementsprechend basiert das gesamte Roh-Fotomaterial eiszeitlicher Szenen, das die KI zur Verfügung hatte, auf Fotos von Modellen. Hier zeigt sich, dass die KI nur verarbeiten kann, was sie kennt und im „Portfolio“ hat.

Übrigens: Anwender können auch Fotos oder bereits generierte Bilder als Grundlage für die Erstellung neuer Bilder verwenden. Das ist vor allem im Hinblick auf Kunst oder Design interessant: Diese Bilder können überall verwendet werden, etwa als Stock-Foto oder T-Shirt-Motiv. Und jedes von ihnen ist einzigartig. Inzwischen erlaubt sogar Adobe Stock in engen Grenzen den Verkauf dieser KI-Kunst.
Rechenleistung kostet Geld
Die Berechnung der KI-generierten Bilder ist serverseitig natürlich sehr aufwändig. Das kostet Rechenleistung und Server-Bandbreite und damit natürlich auch derzeit weltweit alles andere als günstige Energie. Dementsprechend sind die meisten AI-Dienste derzeit entweder nicht öffentlich, nur als stark limitierte Beta oder in Form eines Freemium-Modells zu haben. Dall-E2 ist nach einer längeren Phase mit Einladung inzwischen für alle Nutzer offen. Anwender bekommen zu ihrem Benutzerkonto monatlich 15 kostenlose „Credits“, mit deren Hilfe sie monatlich 15 KI-Bilder erzeugen können. Das ist kaum genug, um hinreichend mit dieser Anwendung herumzuspielen. Wer mehr will, muss Credits in Paketen kaufen: 115 Credits kosten 15 US-Dollar, das macht 13 Cent pro generiertem Bilder-Satz – ein recht sportlicher Tarif, allerdings eine Investition, die sich für Interessierte durchaus lohnen kann.

Stable Diffusion: Die „freie“ Alternative
Ein anderer sehr leistungsfähige KI-Bildgenerator ist Stable Diffusion: Die KI-Bilderstellung ist nach eigener Aussage der Macher „frei“, was bedeutet, dass der Dienst in Form des Stable Diffusion Playgrounds nicht nur frei nutzbar ist, sondern Anwender auch alle möglichen denkbaren Inhalte generieren dürfen. Tatsächlich ist Stable Diffusion deutlich freundlicher gegenüber „inadequaten“ Generierungsanweisungen, allerdings werden auch hier all zu offensichtlich beleidigendende Anfragen ignoriert. Zudem sind die Wartezeiten für die Generierung von Bildern bei der Web-Variante oft sehr hoch, vor allem, wenn gerade viele Nutzer aktiv sind.
Die Ergebnisse von Stable Diffusion liegen nicht ganz auf dem Niveau von Dall-E, zudem sind die generierten Bilder maximal mit einer Auflösung von 768×768 Pixeln deutlich kleiner. Allerdings hat Stable Diffusion den großen Vorteil, dass es frei verbreitet werden darf. Das wiederum lockt natürlich Entwickler an, die Varianten und Anwendungen mit der KI-Software entwickeln. Das Resultat sind einige lokal installierbare Varianten des KI-Bildgenerators für den Mac.

DiffusionBee für Mac & Windows
Die KI-Bildgenerator-App DiffusionBee ist quelloffen und erlaubt es, Stable Diffusion vollständig lokal auf dem eigenen Computer zu betreiben. Nach der Installation verlangt die Software zunächst das Nachladen der rund vier Gigabyte großen Datensätze, der sogenannten „Weights“. Anschließend dürfen Anwender nach Lust und Laune lokal auf ihrem Mac KI-Bilder generieren. Ist DiffusionBee richtig eingestellt, sind die Ergebnisse auf einem ähnlichen hohen Niveau wie die Bilder, die Dall-E2 generiert, allerdings ohne den Kostenaufwand. Ganz ohne Kosten geht es natürlich nicht, denn die Software ist extrem grafiklastig und treibt die Systemlast und damit die Stromkosten zuhause ordentlich in die Höhe.
Eine leistungsstarke Grafikkarte ist daher Pflicht: Zwar liegt Diffusion Bee in angepassten Versionen für Intel- und ARM-Macs vor. Doch in unseren Tests zeigte sich ein intel-basierter iMac Pro einem aktuellen Macbook Air M1 deutlich überlegen, schlicht weil er die deutlich stärkere Grafikkarte an Bord hat. Das zeigt sich vor allem in der Geschwindigkeit, mit der die App Bilder generiert: Während User mit einer starken Grafikkarte recht flott Ergebnisse erwarten können, braucht ein schwächeres System mehrere Minuten, bis ein Bild erscheint.
Charl-E: KI-Bildgenerator für ARM-Macs

Nach einem ähnlichen Prinzip funktioniert auch Charl-E: Die KI-Bildgenerator-Anwendung, die ausschließlich für Apple-Silicon-Macs vorliegt, ist ebenfalls quellofffen, kostenlos – und greift dafür auf die Stable-Diffusion-KI zurück. Prinzipiell ist das Programm Diffusion Bee sehr ähnlich, allerdings mit einer noch einfacheren und basaleren Oberfläche ausgestattet. Dadurch ist es besonders einsteigerfreundlich, denn Optionen gibt es so gut wie keine. Anwender können einfach ihre Anfrage eingeben und mit dem Tool herumspielen. Allerdings dauert es auch eine Weile, bis der eigentliche Bildgenerator aktiv ist, zuvor muss das Tool erst diverse Analysefunktionen laufen lassen. Das dauert, weshalb unser Macbook hier erst nach rund zehn Minuten ein Ergebnis lieferte.
Sowohl für Charl-E, als auch für DiffusionBee gilt: Der Mac sollte ordentlich „Wumms“ in der Grafikkarte haben. Prozessorseitig hält sich Stable Diffusion hingegen zurück, womit die Bild-Generierung bestenfalls durch Lüfter-Geräusche die Produktivität stört. Grundsätzlich sind ARM-Macs hierfür gut geeignet, zumal sich der Energieverbrauch in Grenzen hält. Doch eine leistungsfähige dedizierte Grafikkarte wie im Mac Pro, 27“-iMac oder einem Macbook Pro, allesamt mit Intel-Prozessoren, liefert dennoch schnellere Ergebnisse.
Online oder Offline?
Natürlich sind auch die anderen Bildgeneratoren durchaus einen Blick wert, allerdings noch lange nicht alle frei zugänglich. Sie unterscheiden sich hauptsächlich in der Qualität der generierten Bilder und den Kosten für die Nutzung sowie der ausgegebenen Auflösung. Im Hinblick auf die Verarbeitungsgeschwindigkeit ist es durchaus sinnvoll, auf die Online-Generatoren zu setzen: Lokal installierbare Varianten arbeiten nicht besonders schnell und sind dementsprechend keine echte Alternative.
Fazit: Spektakuläre Technik in den Kinderschuhen
Am Ende des Tages liefert Dall-E2 derzeit die wohl besten Ergebnisse und das in relativ kurzer Zeit, weshalb der Dienst definitiv als erstes auf der Liste für alle KI-Interessierten stehen sollte. Doch auch das quelloffene Stable Diffusion ist nicht weit abgeschlagen und hat den Vorteil, als lokale App verfügbar zu sein. Alle zugrundeliegenden Modelle – auch der hier nicht detailliert vorgestellten Generatoren – werden allerdings laufend trainiert und verbessert, womit jede Aussage über die Qualität nur eine Momentaufnahme sein kann. Sicher ist: Mit zunehmender Leistung von Computern und den KI-Algorithmen sind Kunstwerke künftig nur noch wenige Handgriffe entfernt. Das wird „echte“ Kunst und den Künstler an sich nicht ersetzen – doch so mancher Künstler wird künftig möglicherweise lieber ausgefallene KI-Syntaxen für Generatoren entwerfen, als den Pinsel zu schwingen.