
Microsoft Research heeft Magma geïntroduceerd, een AI-basismodel dat visuele en taalverwerking combineert om software-interfaces en robotsystemen te besturen. Dit model belooft een belangrijke stap vooruit in de ontwikkeling van een veelzijdige multimodale AI die interactief kan opereren in zowel digitale als fysieke omgevingen.
Magma is ontworpen om multimodale data, zoals tekst, afbeeldingen en video, niet alleen te verwerken, maar ook direct op te handelen. Dit betekent dat het model in staat is om zowel digitale interfaces te navigeren als fysieke objecten te manipuleren. Het project is een samenwerking tussen onderzoekers van Microsoft en verschillende universiteiten, waaronder KAIST en de Universiteit van Maryland.
In tegenstelling tot eerdere multimodale AI-systemen die afzonderlijke modellen nodig hadden voor waarneming en besturing, integreert Magma deze vaardigheden in één enkel basismodel. Dit maakt het mogelijk om complexe taken uit te voeren die zowel verbaal, ruimtelijk als tijdelijk inzicht vereisen.
Microsoft beschrijft Magma als een stap richting 'agentic AI', een aanpak die autonoom plannen kan maken en meerdere stappen kan uitvoeren namens een mens, in plaats van alleen maar vragen te beantwoorden.
Technische innovaties
Magma introduceert twee belangrijke technische componenten:
- Set-of-Mark: Dit identificeert objecten die in een omgeving kunnen worden gemanipuleerd door numerieke labels toe te kennen aan interactieve elementen, zoals klikbare knoppen in een gebruikersinterface of grijpbare objecten in een robotwerkruimte.
- Trace-of-Mark: Dit leert bewegingspatronen uit videodata, waardoor het model taken kan voltooien zoals het navigeren van gebruikersinterfaces of het besturen van robotarmen om objecten te grijpen.
Prestaties en vergelijkingen
Microsoft claimt dat Magma-8B competitief scoort op verschillende benchmarks, met sterke resultaten in zowel UI-navigatie als robotmanipulatie. Het model scoort bijvoorbeeld hoger dan GPT-4V op de VQAv2-benchmark voor visuele vraagbeantwoording en leidt in de POPE-score.
Ondanks deze voortgang, blijven er uitdagingen bestaan, zoals complexe beslissingen die meerdere stappen over tijd vergen. Microsoft werkt aan het verbeteren van deze capaciteiten door middel van voortdurend onderzoek. De training en inferentiecode van Magma zal binnenkort worden vrijgegeven op GitHub, waardoor externe onderzoekers de mogelijkheid krijgen om verder te bouwen op dit werk.
Als Magma aan zijn beloftes voldoet, zou dit een grote stap voorwaarts betekenen voor Microsoft's AI-assistenten, die dan niet langer beperkt zouden zijn tot tekstinteracties. In plaats daarvan zouden ze software autonoom kunnen bedienen en reële taken uitvoeren via robotica. Dit onderstreept de snelle evolutie in de AI-wereld, waar agentic AI steeds meer een mainstream onderzoeksthema wordt.