BySárközi Kálmán2025.12.04. Hogyan tanulunk lépésenkénti jutalmakat preferenciákból a ritka jutalmú környezetek megoldására online folyamat jutalmi tanulással Egyéb
BySárközi Kálmán2025.11.26. A Salesforce AI Research bemutatja az xRoutert: megerősítéses tanuláson alapuló útválasztó a költséghatékony LLM-irányításhoz Egyéb
BySárközi Kálmán2025.11.24. Hogyan tervezzünk miniatűr megerősítéses tanulási környezetben működő ügynököt intelligens helyi visszacsatolással, alkalmazkodó döntéshozatallal és több ügynök közötti Egyéb
BySárközi Kálmán2025.11.23. Holdra törő AI-kutatók bemutatják a Seer-t: egy online kontextuális tanulórendszert a gyors szinkron megerősítéses tanulási folyamatokhoz Egyéb
BySárközi Kálmán2025.11.01. Google AI bemutatja a felügyelt megerősítéses tanulást (SRL): lépésről lépésre keretrendszer szakértői pályákkal, amely megtanítja a kis nyelvi modelleket nehé Egyéb