1. Vorsicht, Glas: besser sehen für Roboter
Glasflächen haben ihre Tücken: So wie Vögel Schwierigkeiten damit haben, transparente Oberflächen zu erkennen, sind auch die Fähigkeiten von Robotern hier eingeschränkt: Sie können Glas oder andere sogenannte “unkooperative Oberflächen” – zum Beispiel metallisch glänzende, stark spiegelnde oder tiefschwarze Oberflächen – nicht “sehen”.
Gerade im industriellen Umfeld erschwert dies bislang den Einsatz von Robotern, wenn es um das Handling oder die Bearbeitung von transparenten oder hochglänzenden Objekten geht. Forschende am Fraunhofer IOF haben jetzt eine 3D-Messmethode entwickelt, die dieses Problem löst.
Wie funktioniert das?
Mit dem MWIR-3D-Sensor – auch “Glass360Dgree” genannt – lassen sich spiegelnde oder Licht absorbierende Oberflächen zuverlässig räumlich erfassen. Zu diesem Zweck vereint das System Infrarot-Laserprojektion und Thermografie: Nachdem das Messobjekt gezielt lokal erwärmt wurde, ermitteln zwei Wärmebildkameras die Temperaturverteilung auf der Objektoberfläche. Anders als herkömmliche Sensoren erfordert das neu entwickelte System keine zusätzlichen Messhilfen oder vorübergehend auf dem Objekt angebrachte Markierungen.
Konkret projizieren ein energiereicher CO2-Laser und ein Aufbau mit speziellen Linsen eine Linie, die sich in Bruchteilen von Sekunden in mehreren Schritten über das Messobjekt bewegt. Während der gesamten Messung nimmt der zu vermessende Gegenstand die Energie des Laserlichts auf und strahlt sie für die zwei hochsensiblen Wärmebildkameras gut sichtbar wieder ab. Die für die 3D-Analyse eingebrachte thermische Energie ist dabei so gering, dass das Objekt keinen Schaden nimmt: Der Temperaturunterschied zwischen erwärmter und nicht erwärmter Fläche liegt üblicherweise bei unter 3 °C.
"Glass360Dgree" präsentiert das Fraunhofer IOF auf der Hannover Messe vom 30. Mai bis 2. Juni 2022 am Fraunhofer-Gemeinschaftsstand in Halle 5, Stand A06 sowie auf der Control, der internationalen Fachmesse für Qualitätssicherung, vom 3. bis 6. Mai 2022.
Warum ist das wichtig?
Je mehr Arbeitsschritte eine Anlage pro Minute durchführen kann, ohne dabei fehlerhafte Erzeugnisse hervorzubringen, umso rentabler ist die Fertigung. Das Team von Glass360Dgree gelang es, aus den gewonnenen Messdaten effizient die aktive Steuerung eines Roboters und seiner jeweiligen Werkzeuge abzuleiten. Mit der gewonnenen Flexibilität in Bezug auf die zu scannenden Objekte eröffnet Glass360Dgree neue Möglichkeiten in der Automatisierung industrieller Prozesse sowie in der Produktgestaltung.
2. Wenn Roboter die Grenzen ihres Körpers überwinden
Wir machen uns viele Gedanken, wie sich ein Roboter am leichtesten programmieren lässt: grafische Benutzeroberflächen, Hand-Teaching und Gestensteuerung, auch Spracherkennung und Augmented Reality werden erprobt: Wie auch Laien Roboter programmieren können. An der denkbar einfachsten Programmierung arbeiten Entwickler von Google: Sie bringen dem Roboter bei, durch Zuschauen zu lernen.
Dieses Lernen durch Beobachten und Nachahmen liegt den Menschen im Blut - für Roboter ist es nicht so einfach, schon durch ihr andere “Anatomie” - der Mensch hat fünf Finger, ein Greifer meist nur zwei oder drei.
Um diese Hürde zu überwinden, haben die Google-Forscher, die an der Stanford University angesiedelt sind, eine Methode mit dem etwas sperrigen Titel “Cross-Embodiment Inverse Reinforcement Learning” (XIRL) entwickelt.
Wie funktioniert das?
Die Idee ist von brillanter Einfachheit, ihre Umsetzung ganz und gar nicht. Dem Roboter soll beigebracht werden, bei der Beobachtung statt der einzelnen Bewegungsabläufe eines Menschen das Endergebnis des Prozesses zu erfassen und dann selbsttätig in jene Einzelaktionen umzusetzen, die seinen Möglichkeiten entsprechen - unter anderem durch Versuch und Irrtum.
Um die Methode weiterzuentwickeln und auch anderen zur Verfügung zu stellen, haben sie eine Open-Source-Software namens X-Magical entwickelt, die bei Github zur Verfügung steht. Damit lässt sich in einer virtuellen Umgebung etwa ermitteln, mit welcher Form eines Effektors eine Aufgabe am besten gelöst werden kann.
Weitere Details finden sich im AI-Blog von Google und in einem wissenschaftlichen Paper zu XIRL sowie in folgendem Video:
Warum ist das wichtig?
Die Vision ist - natürlich - die Programmierung von Roboter durch Nachahmung so einfach wie möglich zu machen. Eine interessante Perspektive, die von den Forschern erwähnt wird: möglicherweise reicht es eines Tages, dem Roboter das Youtube-Video etwa eines Sushi-Meisters zu zeigen und ihn so für diese Aufgabe zu trainieren.
3. Neuronales Netz lernt Geometrie
Einen etwas anderen Ansatz für ein recht ähnliches Ziel verfolgen Wissenschaftler des renommierten Massachusetts Institute of Technology (MIT). Mithilfe eines neuartigen neuronalen Netzwerks wollen sie die Zeit für das Anlernen eines Roboters auf eine neue Aufgabe auf 10 bis 15 Minuten reduzieren. Schon lange lassen sich Roboter mithilfe von maschinellem Lernen darauf trainieren, bestimmte Objekte zu erkennen und zu greifen - zumindest, solange Form und Lage des Objektes sich nicht groß ändern.
Durch das neuronale Netzwerk der MIT-Forscher kann die KI nun aber die Form von dreidimensionalen Objekten rekonstruieren, unabhängig von ihrer Lage.
Wie funktioniert das?
Grundlage dafür ist der Einsatz einer Kamera, die nicht nur zweidimensionale Bilder aufnimmt, sondern auch Tiefeninformationen liefert. Daraus lässt sich eine 3D-Punktwolke des Objektes berechnen. Das neuronale Netz wiederum wurde vorab darauf trainiert, aus der Punktwolke quasi die unterschiedlichen Ansichten des Objektes zu rekonstruieren, je nach deren Lage. Auch bei völlig neuen Objekten, die das System zuvor noch nie gesehen hatte, reichten 10 bis 15 Minuten Training, um das Objekt zu erkennen, seine Lage zu bestimmen und es sicher zu greifen.
Kernelement des neuronalen Netzes namens Neural Descriptor Field (NDF) ist das Konzept der sogenannten Äquivarianz. Bekommt der Algorithmus zwei Bilder des gleichen Objektes aus verschiedenen Perspektiven gezeigt, ist er in der Lage zu erkennen, dass es sich um ein und denselben Gegenstand handelt.
Warum ist das wichtig?
Durch die Technik der MIT-Forscher soll das Training von Pick-and-Place-Anwendungen auf neue Objekte erheblich schneller werden als bisher: “Durch die Äqivarianz lassen sich Fälle, wo ein neues Objekt in einer zufälligen Position gegriffen werden muss, wesentlich effizienter als bisher anlernen" so Anthony Simeonov vom MIT.
Doch der Algorithmus kann sogar noch mehr. Durch sein "Verständnis" von Geometrie und der Rekonstruktion von Formen kann er auch einzelne Elemente einer Form erkennen, zum Beispiel den Henkel einer Tasse, auch wenn die Form der Tasse insgesamt sich gerade geändert hat.
Das folgende Video zeigt Details der Neural-Descriptor-Field-Methode: