BySárközi Kálmán2026.01.19. A Nous Research bemutatja a NousCoder-14B-t: versenyképes olimpiai programozási modell, amelyet a Qwen3-14B-re tanítottak megerősítéses tanulással Egyéb
BySárközi Kálmán2025.12.15. Nanbeige4-3B-gondolkodás: hogyan lépik át a 3B modellek a 30B osztály szintű érvelési képességét egy 23T token csővezetékkel Egyéb
BySárközi Kálmán2025.12.04. Hogyan tanulunk lépésenkénti jutalmakat preferenciákból a ritka jutalmú környezetek megoldására online folyamat jutalmi tanulással Egyéb
BySárközi Kálmán2025.11.26. A Salesforce AI Research bemutatja az xRoutert: megerősítéses tanuláson alapuló útválasztó a költséghatékony LLM-irányításhoz Egyéb
BySárközi Kálmán2025.11.24. Hogyan tervezzünk miniatűr megerősítéses tanulási környezetben működő ügynököt intelligens helyi visszacsatolással, alkalmazkodó döntéshozatallal és több ügynök közötti Egyéb
BySárközi Kálmán2025.11.23. Holdra törő AI-kutatók bemutatják a Seer-t: egy online kontextuális tanulórendszert a gyors szinkron megerősítéses tanulási folyamatokhoz Egyéb
BySárközi Kálmán2025.11.01. Google AI bemutatja a felügyelt megerősítéses tanulást (SRL): lépésről lépésre keretrendszer szakértői pályákkal, amely megtanítja a kis nyelvi modelleket nehé Egyéb