Faszinierend: In seinem Twitter-Video zeigt KI-Entwickler Mckay Wrigley, wie sich GPT-4 “umsieht” und nach seiner Anweisung mithilfe der Kamera seines iPhones Objekte identifiziert, die zu einer Keto-Diät (ketogene Diät) passen.
Vorher hat die KI mit Stimmausgabe nach der Suche im Internet mitgeteilt, worum es sich dabei überhaupt handelt. Daraufhin lässt Wrigley seine KI per Kamera Keto-Lebensmittel in seinem Kühlschrank identifizieren und im Internet nach einem Rezept mit Zutaten zu suchen. Das klappt alles relativ schnell und korrekt.
Wilde Kombination aus Software und Hardware
Laut dem Bericht bei iMore setzte Wrigley eine ”wilde Kombination” von Software ein: YoloV8 für die Objekterkennung, ein Bildverarbeitungsmodell, GPT-4 für die KI, OpenAI Whisper für die Stimme, Google Custom Search Engine und Python, die er “auf lustige Art und Weise” zusammenhackte. Es ist nach seinen Worten “100x einfacher” gewesen, als es wirke, und dass “die Welt bald so aussehen wird.” Außerdem habe er einen Mac verwendet, um das Bildgebungsmodell auszuführen, das den Videostream anzeigt. Denn das iPhone allein wäre nicht in der Lage gewesen, die rechnerisch aufwendige Aufgabe zu bewältigen.
Es wird erwartet, dass Apple auf der WWDC 2023 sein neues Reality Pro Headset vorstellt, ein Mixed-Reality-Headset für Spiele, Zusammenarbeit, Fitness und mehr. Eines Tages könnte solche Technologie auch für eine bessere Barrierefreiheit eingesetzt werden, etwa um blinden und sehbehinderten iPhone-Usern zu helfen, Objekte in ihrem Haus mithilfe von KI zu identifizieren und damit zu interagieren, beschreibt iMore einen möglichen Einsatzzweck.
Nur mit Replikator wirklich besser
Das Video von Mckay Wrigley wäre also eine Art ”Proof of Concept”, wie so etwas prinzipiell funktioniert. Freilich dürfte eine entsprechende Apple AR/VR-Brille deutlich eleganter und leichter verwendbar sein. Doch es ist schon beeindruckend, wie Wrigley manche Entwicklungen damit voraus nimmt: Definition eines Suchwortes per Stimme (Frage wie Antwort). Identifizierung der vorhandenen Zutaten über die iPhone-Kamera. Und Vorschlag für ein Rezept, das dazu passt.
Faszinierend? Nun, Spock & Co. würden sich mit solchen Detailarbeiten nicht abgeben, sondern einfach den Replikator auf der Enterprise dafür einsetzen: ”Mach mir ein leckeres, diätarmes Gericht“ oder so ähnlich und was auch immer sonst das Herz begehrt. Ob das synthetische Essen auf der Enterprise freilich an ein selbst gekochtes auf der Erde herankommt, ist nicht bekannt, aber nach einigen Aussagen von Enterprise-Crewmitgliedern nicht wahrscheinlich. Jedenfalls wäre in unserer demgegenüber noch rückständigen Zeit eine Apple-Brille eine gute Hilfe, wenn sie ähnlich nahtlos funktioniert wie dieses Experiment mit GPT-4 und dem iPhone …