2025.12.15.
Nanbeige4-3B-gondolkodás: hogyan lépik át a 3B modellek a 30B osztály szintű érvelési képességét egy 23T token csővezetékkel
Fedezd fel, hogyan képes egy mindössze 3 milliárd paraméteres nyelvi modell a 30 milliárdos kategória szintjén érvelni, mindezt a képzési eljárás tökéletesítésével a paraméterek növelése helyett! A Nanbeige LLM Lab legújabb fejlesztése, a Nanbeige4-3B, különleges hangsúlyt fektet az adatminőségre, a tanulási ütemezésre, a desztillációra és a megerősítéses tanulásra.