"Der ChatGPT-Moment für die Robotik ist gekommen", sagte Nvidia-Chef Jensen Huang bei der Vorstellung der Cosmos World Foundation Model Platform auf der Messe CES in Las Vegas. Ähnlich wie Large Language Models der KI seien World-Foundation-Modelle von grundlegender Bedeutung, um die Entwicklung von Robotern voranzutreiben.
Stichwort: World Foundation Modelle
World-Foundation-Modelle sind generative KI-Modelle, die die Dynamik der realen Welt, einschließlich physikalischer und räumlicher Eigenschaften, verstehen. Sie verwenden Eingabedaten wie Text, Bilder oder Kameradaten, um synthetische Videos zu erzeugen. Sie verstehen die physikalischen Eigenschaften realer Umgebungen, indem sie lernen, Faktoren wie Bewegung, Kraft und räumliche Beziehungen anhand von Sensordaten darzustellen und vorherzusagen.
Physische KI-Systeme wie Roboter und autonome Fahrzeuge nutzen World-Foundation-Modelle, um Training und Tests zu beschleunigen. "Doch nicht alle Entwickler verfügen über das Know-how und die Ressourcen, um ihre eigenen Modelle zu trainieren", sagte Huang, Gründer und CEO von Nvidia. "Wir haben Cosmos entwickelt, um physische KI zu demokratisieren und allgemeine Robotik für jeden Entwickler zugänglich zu machen."
Das folgende Video von Nvidia zeigt die Möglichkeiten von Cosmos:
Cosmos-Modelle werden unter einer offenen Lizenz verfügbar sein, um die Arbeit der Robotik-Community zu beschleunigen. Entwickler können eine Vorschau der ersten Modelle im Nvidia-API-Katalog ansehen oder die Modellfamilie und das Feinabstimmungs-Framework aus dem Nvidia NGC-Katalog oder Hugging Face herunterladen. Führende Robotik- und Automobilunternehmen wie 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi und XPENG sowie der Ridesharing-Riese Uber gehören zu den ersten, die Cosmos einsetzen.
Wie funktionieren Cosmos-Modelle
- Die Idee ist, enorme Mengen an zuverlässigen Trainingsdaten zu generieren, indem eine einzelne reale Situation - oder auch nur eine Textaufforderung - zugrunde gelegt wird, um ein virtuelles Modell davon erstellen.
- Auf Basis dieses virtuellen Modells wird die Situation dann in eine theoretisch unendliche Anzahl von leicht unterschiedlichen Situationen aufgesplittet.
- So können etwa die Kameradaten eines realen autonomen Autos, das eine Straße entlangfährt, als Basis für virtuelle Fahrten zu vielen verschiedenen Tageszeiten, Wetter- und Verkehrsbedingungen dienen.
- So kann die Reaktion des autonomen Fahrzeugs schnell unter einer riesigen Anzahl von Variablen getestet werden, indem statt realer Kameradaten die synthetisch erzeugten Videostreams in die Rechnersysteme gespeist werden.
Die Erstellung solcher physischen KI-Modelle erfordert allerdings Petabytes an Videodaten und Zehntausende von Rechenstunden für die Verarbeitung, Kuratierung und Kennzeichnung dieser Daten. Hier setzt die Cosmos-Plattform durch eine starke Integration mit der Nvidia-Hardware an: So soll eine Datenpipeline auf Basis der Blackwell-Prozessoren von Nvidia 20 Millionen Stunden an Videos in 14 Tagen verarbeiten, kuratieren und beschriften können. Mit einer reinen CPU-Plattform würde der Vorgang laut Angaben von Nvida mehr als drei Jahre dauern.
Software-seitig bietet der Cosmos Tokenizer zur Umwandlung von Bildern und Videos in Token eine 8-fach höhere Gesamtkomprimierung und eine 12-fach schnellere Verarbeitung als die derzeit führenden Tokenizer.