BySárközi Kálmán2026.02.13. Hogyan hangoljuk össze a nagy nyelvi modelleket az emberi preferenciákkal: közvetlen preferenciaoptimalizálás, QLoRA és ultra-visszajelzés alkalmazásával Egyéb