RLHF (Reinforcement Learning from Human Feedback)
L'RLHF è una tecnica di addestramento che utilizza il feedback umano per 'istruire' un modello AI. Gli esseri umani valutano diverse risposte dell'AI e il modello impara a preferire quelle che ricevono punteggi più alti.
L'addestramento iniziale di un'AI è come far leggere a un bambino tutto internet: impara a parlare, ma impara anche a dire parolacce o cose senza senso. L'RLHF è la fase dell'educazione.
Durante questo processo, migliaia di persone leggono le risposte dell'AI e dicono: 'Questa è corretta e gentile', oppure 'Questa è falsa'. L'algoritmo riceve una sorta di 'premio' matematico quando segue le preferenze umane.
È grazie all'RLHF che ChatGPT non risponde solo in modo logico, ma lo fa con un tono colloquiale, utile e seguendo le norme di sicurezza che ne impediscono l'uso improprio.