Twee onderzoekers van UC Berkeley en ETH Zürich hebben een baanbrekende stap gezet in de toepassing van AI door een eenvoudige robotarm te leren hoe hij gemorste vloeistof moet opruimen. Dit deden ze met behulp van OpenAI’s GPT-4, het grote taalmodel dat ook de drijvende kracht is achter de populaire chatbot ChatGPT.
Wat deze ontwikkeling bijzonder maakt, is dat een taalmodel wordt ingezet voor taken die op het eerste gezicht weinig met taal te maken hebben. In slechts vier dagen trainden de onderzoekers de robotarm met een gewone spons om zelfstandig een nabije vloeistofvlek te detecteren en schoon te maken.
In een video, gedeeld door UC Berkeley-roboticus Jannik Grothusen, zien we hoe de robotarm reageert op instructies.
Wanneer de robot wordt gevraagd wat hij voor zich ziet, antwoordt hij: “Ik zie een spons en een kleine vlek op een oppervlak.”
De onderzoeker geeft vervolgens de opdracht: “Leg uit wat je gaat doen en maak de tafel schoon.”
De robotarm reageert: “Ik gebruik de robotarm om het tafeloppervlak schoon te maken. Eerst controleer ik welke bewegingsvaardigheden beschikbaar zijn om de spons op te pakken en de tafel af te vegen. Daarna voer ik de reeks uit om de vlek schoon te maken.”
Wat volgt is een nauwkeurige uitvoering van de taak, waarbij de robotarm zonder aarzeling de spons oppakt en het oppervlak schoonmaakt.
De robotarm is uitgerust met een contextbewuste “multimode agent” genaamd LangChain. Dit framework vertaalt de input en output van het taalmodel naar fysieke bewegingen via reinforcement learning. Het systeem maakt gebruik van ongeveer 100 demonstraties om de robot te trainen.
Wat deze technologie extra toegankelijk maakt, is dat zowel de robotarm als de bijbehorende software volledig open source zijn. Enthousiastelingen kunnen de robot zelfs thuis bouwen met behulp van een reeks instructievideo’s op YouTube.
Volgens Grothusen toont deze proef aan hoe open source bijdraagt aan de democratisering van de robotica. De relatief lage kosten van de robotarm en de gratis beschikbare leeralgoritmen maken geavanceerde robotica toegankelijk voor een breder publiek. Dit kan grote gevolgen hebben voor zowel hobbyisten als onderzoekers die met beperkte middelen werken.
Grothusen beschrijft het experiment als een “proof-of-concept” voor een robotbesturingsarchitectuur. Deze combineert een visueel-taalmodel voor menselijke interactie, redenering en taakuitvoering. Hoewel het nog onduidelijk is of deze technologie ooit zal leiden tot volledig autonome schoonmaakrobots voor thuisgebruik, biedt dit experiment een glimp van wat mogelijk is in de toekomst.
De integratie van AI-taalmodellen met robotica opent nieuwe mogelijkheden in de fysieke wereld. Wat begon als een experiment in een laboratorium, zou de deur kunnen openen naar praktische toepassingen in ons dagelijks leven. Van eenvoudige schoonmaaktaken tot complexe industriële processen, de potentie van AI-gestuurde robots lijkt eindeloos.