Die als Bildgeneratoren bekannten Diffusionsmodelle können auch komplexe Packaufgaben lösen
KI als Packexperte: Bisher sind Diffusionsmodelle vor allem von KI-Bildgeneratoren wie Stable Diffusion oder DALL-E bekannt. Doch sie können weit mehr, wie nun ein Experiment beweist. Darin helfen mehrere gekoppelte Diffusionsmodelle Robotern dabei, gängige Packprobleme zu lösen – schneller und effizienter als bisher. Möglich wird dies, weil die jeweils auf Einzelvorgaben trainierten KI-Systeme verschiedene Aspekte des Problems parallel und sich ergänzend lösen. Das steigert die Leistungsfähigkeit des Ensembles.
Wenn Roboterarme oder Roboter in der Industrie oder in Warenlagern eingesetzt werden, müssen sie oft mehrere Vorgaben gleichzeitig beachten – vor allem beim Packen von Objekten. So müssen die Gegenstände alle in den dafür gedachten Behälter passen, sie müssen stabil gestapelt werden und der Roboterarm darf schon platzierte Objekte beim weiteren Packen nicht beschädigen oder wieder herauswerfen. Vergleichbar ist dies mit dem Packen eines Autokofferraums beim Verreisen oder dem Decken eines Tischs: Auch dabei folgen wir unbewusst bestimmten Regeln.
Für Roboter bedeuten solche Mehrfach-Vorgaben jedoch eine enorme Herausforderung. Meist versuchen sie diese zu erfüllen, indem sie zunächst eine Bedingung einhalten und dann die nächste prüfen. Wird diese nicht eingehalten, beginnt der Roboter von vorn. Dadurch sind solche sequenziellen Lösungen für Packprobleme zeitaufwendig und können gerade bei vielen verschiedenen Anforderungen extrem ineffizient werden.
Diffusionsmodelle als Problemlöser
Eine Lösung für dieses Problem könnte nun Team um Zhutian Yang vom Massachusetts Institute of Technology (MIT) gefunden haben – in den künstlichen Intelligenzen, die bisher vor allem durch generative Bildgeneratoren wie Stable Diffusion, Imagen oder DALL-E bekannt geworden sind: Diffusionsmodelle. Diese auf neuronalen Netzwerken basierenden KI-Systeme lernen im Training, Bilder schrittweise zu verrauschen und dann aus einem solchen Rauschen nach und nach völlig neue Bilder zu erzeugen.
Doch die Diffusionsmodelle können noch mehr: Sie lassen sich auch darauf trainieren, umsetzbare Lösungen für Packprobleme zu finden. Ähnlich wie bei der Bilderzeugung beginnen die KI-Systeme dabei mit einer sehr schlechten „verrauschten“ Lösung – beispielsweise instabil gestapelten Kisten oder überlappenden Objekten. Diese Versuche verbessern sie dann im Training schrittweise, bis die Vorgabe erfüllt wird.
Arbeitsteilung im KI-Ensemble
Für ihre Tests nutzten Yang und ihr Team mehrere dieser KI-Modelle gleichzeitig, aber in Arbeitsteilung: Ein Modell lernte beispielsweise, einen Roboterarm so zu steuern, dass er Gegenstände nicht überlappend, sondern nebeneinander auf ein Tablett stellt. Ein zweites Diffusionsmodell hatte die Vorgabe, den Roboterarm nicht mit schon platzierten Objekten kollidieren zu lassen. Ein drittes konzentrierte sich darauf, bestimmte Abstände oder Ausrichtungen der Gegenstände einzuhalten.
Der Clou: Am Ende dieses Trainingsprozesses werden die Diffusionsmodelle zusammengeschaltet und agieren nun gemeinsam. Yang und ihr Team bezeichnen dieses Ensemble als „Compositional Diffusion Constraint Solver (Diffusions-CCSP). „Beim eigentlichen Einsatz kann der Diffusion-CCSP auch Lösungen für neue Kombinationen von bekannten Vorgaben generieren“, erklären sie. Weil jedes Einzelmodell zudem darauf trainiert ist, die Vorgabe mit minimalem Aufwand zu erfüllen, ist auch das Ensemble sehr effizient.
Diffusion-CCSP im Test: Boxen stapeln und Roboterarm steuern
Um das KI-System in der Praxis zu testen, stellten die Forschenden dem Diffusion-CCSP zunächst mehrere Aufgaben in einer 2D-Simulation. In dieser sollten sie beispielsweise Dreiecke berührungsfrei in einem quadratischen Rahmen platzieren, verschiedene Rechtecke in bestimmter Ausrichtung zueinander platzieren oder Boxen stabil aufeinanderstapeln. Dann folgte ein Test mit einen Roboterarm, der verschiedene Objekte – zwei Schalen, einen Fotoapparat, eine Sprühflasche und eine Dose – nach bestimmten Regeln auf ein Tablett stellen sollte.
Es klappte: Tatsächlich gelang es dem Ensemble von Diffusionsmodellen, den Roboterarm so zu steuern, dass er beim Packen alle Regeln erfüllte. Dabei löste er dieses Packproblem schneller und effizienter als gängige sequenzielle KI-Systeme, wie das Team berichtet. Der Diffusion-CCSP entwickelte zudem eine größere Zahl an korrekten Lösungen für die gestellten Aufgaben und konnte sich auch flexibel an eine größere Menge zu packender Objekte anpassen.
Breite Palette von Anwendungen
Nach Ansicht der Wissenschaftler könnten solche KI-Ensembles künftig für eine breite Palette von Aufgaben eingesetzt werden – von der Abwicklung von Bestellungen in einem Warenlager über das Einsortieren von Waren in einem Supermarkt bis zum Zusammenstellen von Bauteilen in der Fertigung. „Meine Vision ist es, Roboter zur Bewältigung komplexer Aufgaben mit vielen Vorgaben zu befähigen, denn dies sind die Probleme, die Service-Roboter auch in unseren unstruktierten und vielfältigen menschlichen Umgebungen lösen müssen“, sagt Yang.
Als nächstes planen Yang und ihr Team, den Diffusion-CCSP in noch komplexeren Situationen zu testen, beispielsweise bei der Steuerung von sich im Raum bewegenden Robotern. „Auch wenn diese Technologie erst in einer frühen Phase der Entwicklung ist, eröffnen die laufenden Fortschritte vielversprechende Aussichten auf effizientere, sichere und verlässliche autonome Systeme in verschiedensten Anwendungsbereichen“, kommentiert der nicht an der Studie beteiligte KI-Forscher Danfei Xu vom Georgia Institute of Technology. (Preprint arXiv, doi: 10.48550/arXiv.2309.00966)
Quelle: Massachusetts Institute of Technology (MIT)