Nous Research új módszere: a token szuperpozíciós tréning akár 2,5-szeresére gyorsítja az LLM előképzést 270 millió és 10 milliárd paraméter közötti modelleknél

Az utóbbi években a mesterséges intelligencia fejlődése egyre gyorsabb ütemben halad, és ennek egyik sarkalatos pontja a nagy nyelvi modellek (LLM) pre-training folyamata. A gyorsabb és hatékonyabb tanulás eléréséhez a Nous Research bemutatta legújabb innovációját, a Token Superposition Training (TST) nevű módszert. Ez a kétszakaszos pre-training eljárás akár 2,5-szeresére is gyorsíthatja a tanulási folyamatot anélkül, hogy a modellek architektúráját vagy működését megváltoztatná.

A TST módszer lényege, hogy az első szakaszban az összefüggő tokenek beágyazásait átlagolja, ún. „csomagokká” alakítva őket. Ez a technika jelentős időmegtakarítást eredményez a tanulási folyamat során, mivel kevesebb számítási kapacitásra van szükség. A második fázisban visszatérnek a hagyományos, következő token előrejelzési módszerhez, amely biztosítja, hogy a modell pontosan és hatékonyan működjön az inferencia során.

A TST módszer különlegessége, hogy nem igényel változtatásokat sem a modellek architektúrájában, sem a tokenizálóban, sem pedig az optimalizáló algoritmusokban. Ez azt jelenti, hogy a meglévő rendszerek könnyen adaptálhatók az új módszerhez anélkül, hogy átfogó átalakításokra lenne szükség.

A Nous Research ezen módszerét már sikeresen validálták különböző méretű modelleken, beleértve a 270 millió, 600 millió, 3 milliárd és 10 milliárd paraméteres modelleket is. Ez a széleskörű tesztelés igazolja, hogy a TST hatékonyan alkalmazható különböző skálákon, felgyorsítva a tanulási folyamatot anélkül, hogy a modellek teljesítménye csökkenne.

A Token Superposition Training bevezetése jelentős előrelépést jelenthet a mesterséges intelligencia kutatások számára, hiszen nemcsak időt és energiát takarít meg, hanem lehetőséget biztosít még nagyobb és komplexebb modellek kifejlesztésére is. Ahogy a technológia fejlődik, a Nous Research munkája hozzájárulhat ahhoz, hogy a jövő generációs nyelvi modellek még hatékonyabban és gyorsabban tanulhassanak, megnyitva az utat az új alkalmazási területek előtt.