
A robotika területén az utóbbi években jelentős fejlődés tapasztalható, különösen a Vision-Language-Action (VLA) modellek terén. Ezek a rendszerek képesek vizuális információkat feldolgozni, nyelvi utasításokat értelmezni és cselekvéseket végrehajtani. Azonban a jelenlegi modellek egyik nagy kihívása, hogy csak korlátozott emlékezőkapacitással rendelkeznek. Ez azt jelenti, hogy jellemzően egyetlen megfigyelés alapján, vagy nagyon rövid múltbeli adatok felhasználásával működnek. Ez komoly akadályt jelent a hosszú távú feladatok – például egy konyha kitakarítása vagy egy összetett recept követése – sikeres végrehajtásában.
Erre a problémára keresett megoldást a Physical Intelligence csapata, mely a Stanford, a UC Berkeley és az MIT kutatóival közösen dolgozott ki egy új, több szintű memória rendszert, a MEM-et. Ez a rendszer kifejezetten a VLA modellek számára készült, és célja, hogy kiterjessze a robotok emlékezőkapacitását 15 perces kontextusra. Így a robotok képesek lesznek a bonyolultabb, hosszú távú feladatok végrehajtására is, anélkül, hogy a számítási kapacitásuk kimerülne vagy a feladat végrehajtása során hibáznának.
A MEM rendszer beépítése különösen a Gemma 3-4B modell esetében volt sikeres. Ez a fejlesztés lehetővé teszi, hogy a robot komplex feladatok során is folyamatosan alkalmazkodjon, és a feladat végrehajtása közben szerzett információkat hatékonyan tárolja és hasznosítsa. Az új memória rendszer tehát nemcsak a robotok autonómiáját növeli, hanem hozzájárul ahhoz is, hogy a jövőben még összetettebb és emberközelibb feladatokat tudjanak elvégezni.
A kutatók reményei szerint a MEM rendszer alkalmazásával a jövő robotjai még inkább képesek lesznek az emberi viselkedés utánzására, és nagyobb hatékonysággal integrálódhatnak mindennapi életünkbe. Ez a technológiai áttörés új lehetőségeket nyit meg a robotika világában, és közelebb visz minket ahhoz a jövőképhez, ahol a robotok szorosan együttműködnek az emberekkel a mindennapi feladatok elvégzésében.