Indietro

Reward Model (Modello di Ricompensa)

Il Reward Model è un'intelligenza artificiale secondaria utilizzata durante la fase di RLHF. Il suo unico scopo è giudicare le risposte generate dall'AI principale, assegnando punteggi alti (ricompense) ai comportamenti desiderati.


Come fa una macchina che analizza solo la statistica a capire cosa significa 'essere educato' o 'essere etico'? Lo capisce tramite il Reward Model. Durante l'addestramento, migliaia di esseri umani votano quali risposte di ChatGPT preferiscono. Sulla base di questi voti umani, viene creato un piccolo algoritmo-giudice (il Reward Model). Da quel momento in poi, ogni volta che ChatGPT dice una cosa vera e utile, il Reward Model gli dà un +1. Se dice una bugia tossica, gli dà un -1. L'AI principale, per sua natura matematica, modificherà i propri pesi interni per massimizzare il punteggio, diventando docilmente 'allineata' alla volontà umana.