Indietro

Alignment Tax (Tassa di Allineamento)

L'Alignment Tax (Tassa di Allineamento) è il termine usato dai ricercatori per descrivere il calo di prestazioni, creatività o utilità che un modello linguistico subisce quando viene pesantemente addestrato a essere sicuro e politicamente corretto.


È il grande paradosso dello sviluppo AI. Quando crei un modello base puro (Base Model), questo è creativo, geniale e risponde a qualsiasi cosa. Però è pericoloso: se gli chiedi come fare un esplosivo, te lo dice. Per renderlo sicuro e poterlo vendere al pubblico, le aziende aggiungono uno strato di filtri etici (RLHF o Alignment). Pagano però una 'tassa': il modello diventa più timoroso, meno propenso ad aiutare su compiti innocui ma borderline, e perde leggermente le sue capacità di ragionamento logico puro. Gli scienziati lavorano costantemente per abbassare questa tassa.