A Nous Research új módszere: világítótorony figyelem, amely 1,4–1,7-szeres gyorsítást nyújt a pretraining során hosszú szövegeknél

A mesterséges intelligencia kutatásának világában a hatékonyság és a gyorsaság kulcsfontosságú tényezők, különösen a nagy mennyiségű adatot igénylő modellek esetében. A Nous Research nemrégiben bemutatta a Lighthouse Attention nevű új mechanizmusát, amely jelentős előrelépést jelenthet a modellek betanítási sebességében.

Ez az új módszer a hierarchikus figyelem (attention) egy innovatív változata, amely kifejezetten a betanítási folyamat során alkalmazandó. A Lighthouse Attention lényege, hogy kiválasztás-alapú hierarchikus figyelemként működik, ami azt jelenti, hogy a hagyományos skálázott dot-product figyelmet egyfajta burkolatként körbeveszi a betanítás során, majd ezt követően eltávolítják.

Az új mechanizmus különlegessége, hogy szimmetrikusan vonja össze a Q, K, és V komponenseket, egy többfelbontású piramis mentén. Ez jelentős mértékben csökkenti az attention hívások számát, ami a hagyományos O(N·S·d) helyett O(S²·d) komplexitást eredményez. Emellett a FlashAttention-t egy kis, sűrű al-szekvencián futtatja, ami szintén hozzájárul a gyorsasághoz.

A Lighthouse Attention-t egy 530 millió paraméteres, Llama-3-stílusú modellen tesztelték, amely 98 ezer szavas kontextust kezelt. Az eredmények lenyűgözőek: a módszer 1,40–1,69-szeres gyorsulást biztosított az end-to-end falióra-idő tekintetében a cuDNN SDPA baseline-hoz képest, miközben a végső betanítási veszteség megegyezett vagy alacsonyabb volt.

Ez az előrelépés különösen fontos lehet a hosszú kontextusok kezeléséhez, ahol a hagyományos figyelem mechanizmusok gyakran szűk keresztmetszetet jelentenek. A Nous Research újítása nemcsak a sebesség tekintetében hoz előnyt, hanem lehetővé teszi a nagyobb és összetettebb modellek hatékonyabb betanítását is, ami az AI fejlesztés következő lépcsőfokát jelentheti.