BySárközi Kálmán2025.10.27. Hogyan építsünk, tanítsunk és hasonlítsunk össze több megerősítéses tanuló ügynököt egy egyedi kereskedési környezetben a Stable-Baselines3 segítségével? Egyéb
BySárközi Kálmán2025.10.23. PokeeResearch-7B: nyílt 7B mély-kutató ügynök, AI visszajelzéssel és erős érvelési vázzal fejlesztve Egyéb
BySárközi Kálmán2025.10.18. Szigmoid skálázási görbék teszik kiszámíthatóvá a megerősítéses tanulást az LLM-ek számára edzés után Egyéb
BySárközi Kálmán2025.10.16. QeRL: az NVFP4-kvantált megerősítéses tanulás (RL) egyetlen H100-ra hozza a 32B LLM képzést—miközben javítja a felfedezést Egyéb