Suchroboter denkt mit

Sprachmodell hilft Robotern beim Finden verlorener Objekte

Forschende der TU München haben einen Roboter entwickelt, der verlorene Gegenstände mithilfe eines Sprachmodells aufspüren kann. Das System kombiniert Internetwissen, Bildverarbeitung und eine 3D-Umgebungskarte, um die Suche deutlich effizienter zu gestalten.

2 min
TUM-Forscher Benjamin Bogenberger verbindet dreidimensionales Sehen mit Sprachmodellen.

Ein Roboter, der auf Zuruf verlorene Gegenstände aufzuspüren kann – das ist die neueste Entwicklung an der Technischen Universität München (TUM). Er verknüpft dafür Wissen aus dem Internet und eine räumlichen Umgebungskarte, um gesuchte Objekte effizient zu finden.Der neue Roboter aus dem TUM Learning Systems and Robotics Lab von Prof. Angela Schoellig sieht aus wie ein fahrbarer Besenstil, an dessen oberen Ende eine Kamera montiert ist.

Er ist einer der ersten Roboter, der Bildverständnis nicht nur integriert, sondern für eine klar definierte Aufgabe nutzt. Um etwa eine verlegte Brille in der Küche zu finden, muss sich der Roboter umsehen und ein dreidimensionales Bild des Raumes aufbauen. Die Kamera liefert zunächst zweidimensionale Bilder, deren Bildpunkte jedoch zusätzlich Tiefeninformationen enthalten. So entsteht ein zentimetergenaues räumliches Bild der Umgebung, das ständig aktualisiert wird. Ein Laptop versorgt den Roboter zusätzlich mit Informationen dazu, welche Gegenstände auf dem Bild zu sehen sind und welche Bedeutung sie für den Menschen haben.

Wir haben dem Roboter beigebracht, die Umgebung zu verstehen.

Prof. Angela Schoellig, Lehrstuhl für Sicherheit, Performanz und Zuverlässigkeit für lernende Systeme Technische Universität München (TUM)

Die Vision der Leiterin des Robotik-Labs im TUM-Lehrstuhl für Sicherheit, Performanz und Zuverlässigkeit für lernende Systeme, Prof. Angela Schoellig, ist, Roboter zu entwickeln, die sich selbständig in beliebigen Umgebungen zurechtfinden. Humanoide Roboter, die in Fabriken arbeiten, oder Roboter in der Pflege, die sich in unterschiedlichen Wohnungen aufhalten, erfordern dieses neu entwickelte Grundverständnis, das „für alle Roboter wichtig ist, die sich in Räumen bewegen, die sich ständig verändern“, wie Schoellig sagt.

Internetwissen in Sprache des Roboters umgewandelt

Dem Roboter ist also klar, dass etwa ein Tisch oder eine Fensterbank dafür genutzt werden, eine Brille kurz abzulegen, während eine Herdplatte oder Spülbecken dafür eher nicht in Frage kommen. „Das Sprachmodell spielt die Beziehungen zwischen den Objekten ein und wir wandeln diese Informationen in die Sprache des Roboters um“, erläutert Prof. Schoellig. Auf der dreidimensionalen Karte der Umgebung erscheinen kleine zweistellige Zahlen, die ständig neu beziffern, wie wahrscheinlich es ist, dass sich der gesuchte Gegenstand dort befindet. Daraufhin fährt der Roboter die wahrscheinlichen Orte um fast 30 Prozent effizienter ab, als wahllos im Raum zu suchen, so die Forschungsergebnisse. Künstliche Intelligenz kommt also gleich doppelt zum Einsatz, einerseits in der Bilderkennung, andererseits durch den Einsatz eines Sprachmodells.

Der Suchroboter hat eine 3D-Kamera an Bord, um verlorene Gegenstände wie eine Brille zu finden.

Weiterer Trick des Roboters: Er merkt sich alte Bilder und ist in der Lage, sie mit neuen Bildern der Umgebung zu vergleichen. Befindet sich also plötzlich ein neuer Gegenstand in der Küche, erkennt er diese Veränderung sehr sicher (95 Prozent) und diese Regionen sind schon mal als „hoch wahrscheinlich“ für die Suche vorgemerkt.

Nächster Schritt: Die Suche hinter Schranktüren

Im nächsten Schritt will die TUM-Wissenschaftlerin und Vorständin im Munich Institute of Robotics and Machine Intelligence (TUM MIRMI) auch Gegenstände suchen, die sich in einer Schublade oder hinter einer Tür befinden. Dafür wird der Roboter allerdings nicht „nur“ auf Wissen aus dem Internet zurückgreifen, sondern mit der Umgebung interagieren müssen. Roboterarme und -hände müssen einen Wandschrank öffnen und verstehen, ob er sich nach oben oder zur Seite öffnen lässt und wie er den jeweiligen Griff am besten anfassen sollte.

FAQ: Suchroboter der TUM

1. Wie erstellt der Roboter eine Karte seiner Umgebung?
Der Roboter nutzt eine Kamera, die zweidimensionale Bilder mit zusätzlichen Tiefeninformationen aufnimmt. Daraus entsteht ein zentimetergenaues dreidimensionales Abbild des Raums, das kontinuierlich aktualisiert wird.

2. Wie hilft das Sprachmodell bei der Suche nach Gegenständen?
Das Sprachmodell liefert Informationen über typische Beziehungen zwischen Gegenständen und Orten. So weiß der Roboter beispielsweise, dass eine Brille eher auf einem Tisch oder einer Fensterbank liegt als auf einer Herdplatte oder im Spülbecken.

3. Wie erkennt der Roboter neue Gegenstände im Raum?
Der Roboter speichert frühere Bilder seiner Umgebung und vergleicht sie mit aktuellen Aufnahmen. Wenn ein neuer Gegenstand auftaucht, erkennt er diese Veränderung mit hoher Sicherheit und markiert den Bereich als wahrscheinlichen Fundort.